>>>> alerta gd2md-html: link de imagem embutido na fonte gerada e armazena imagens em seu servidor. NOTA: As imagens no arquivo zip exportado do Google Docs podem não aparecer na mesma ordem que aparecem no seu documento. Por favor, verifique as imagens!
—–>
Se você não é um desenvolvedor, então por que você iria querer executar um modelo de IA de código aberto em seu computador doméstico?
Acontece que há uma série de boas razões. E com os modelos gratuitos e de código aberto cada vez melhores – e simples de usar, com requisitos mínimos de hardware – agora é um ótimo momento para tentar.
Aqui estão alguns motivos pelos quais os modelos de código aberto são melhores do que pagar US$ 20 por mês para ChatGPT, Perplexity ou Google:
- É grátis. Sem taxas de assinatura.
- Seus dados permanecem em sua máquina.
- Funciona offline, sem necessidade de internet.
- Você pode treinar e personalizar seu modelo para casos de uso específicos, como escrita criativa ou… bem, qualquer coisa.
A barreira à entrada ruiu. Agora existem programas especializados que permitem aos usuários experimentar IA sem todo o incômodo de instalar bibliotecas, dependências e plug-ins de forma independente. Praticamente qualquer pessoa com um computador relativamente recente pode fazer isso: um laptop ou desktop de médio porte com 8 GB de memória de vídeo pode rodar modelos surpreendentemente capazes, e alguns modelos rodam com 6 GB ou até 4 GB de VRAM. E para a Apple, qualquer chip da série M (dos últimos anos) será capaz de rodar modelos otimizados.
O software é gratuito, a configuração leva minutos e a etapa mais intimidante – escolher qual ferramenta usar – se resume a uma pergunta simples: você prefere clicar em botões ou digitar comandos?
LM Studio x Ollama
Duas plataformas dominam o espaço local de IA e abordam o problema de ângulos opostos.
O LM Studio envolve tudo em uma interface gráfica sofisticada. Você pode simplesmente baixar o aplicativo, navegar em uma biblioteca de modelos integrada, clicar para instalar e começar a conversar. A experiência se espelha no ChatGPT, exceto que o processamento acontece no seu hardware. Os usuários de Windows, Mac e Linux obtêm a mesma experiência tranquila. Para os recém-chegados, este é o ponto de partida óbvio.
Ollama é voltado para desenvolvedores e usuários avançados que moram no terminal. Instale via linha de comando, extraia modelos com um único comando e, em seguida, crie scripts ou automatize conforme desejar. É leve, rápido e integra-se perfeitamente aos fluxos de trabalho de programação.
A curva de aprendizado é mais acentuada, mas a recompensa é a flexibilidade. É também o que os usuários avançados escolhem em termos de versatilidade e personalização.
Ambas as ferramentas executam os mesmos modelos subjacentes usando mecanismos de otimização idênticos. As diferenças de desempenho são insignificantes.
Configurando o LM Studio
Visite https://lmstudio.ai/ e baixe o instalador para o seu sistema operacional. O arquivo pesa cerca de 540 MB. Execute o instalador e siga as instruções. Inicie o aplicativo.
Dica 1: se for perguntado que tipo de usuário você é, escolha “desenvolvedor”. Os outros perfis simplesmente ocultam opções para facilitar as coisas.
Dica 2: recomendará o download do OSS, o modelo de IA de código aberto da OpenAI. Em vez disso, clique em “pular” por enquanto; existem modelos melhores e menores que farão um trabalho melhor.
VRAM: a chave para executar IA local
Depois de instalar o LM Studio, o programa estará pronto para ser executado e terá a seguinte aparência:
Agora você precisa baixar um modelo antes que seu LLM funcione. E quanto mais poderoso for o modelo, mais recursos serão necessários.
O recurso crítico é VRAM, ou memória de vídeo da placa gráfica. LLMs são carregados na VRAM durante a inferência. Se você não tiver espaço suficiente, o desempenho será prejudicado e o sistema deverá recorrer a uma RAM mais lenta. Você deseja evitar isso tendo VRAM suficiente para o modelo que deseja executar.
Para saber quanta VRAM você tem, você pode entrar no gerenciador de tarefas do Windows (control+alt+del) e clicar na aba GPU, certificando-se de ter selecionado a placa gráfica dedicada e não a gráfica integrada em seu processador Intel/AMD.
Você verá quanta VRAM possui na seção “Memória GPU dedicada”.
Nos Macs da série M, as coisas são mais fáceis porque eles compartilham RAM e VRAM. A quantidade de RAM em sua máquina será igual à VRAM que você pode acessar.
Para verificar, clique no logotipo da Apple e, a seguir, clique em “Sobre”. Veja Memória? Essa é a quantidade de VRAM que você tem.
Você vai querer pelo menos 8 GB de VRAM. Modelos na faixa de 7 a 9 bilhões de parâmetros, compactados usando quantização de 4 bits, ajustam-se confortavelmente e oferecem forte desempenho. Você saberá se um modelo é quantizado porque os desenvolvedores geralmente divulgam isso no nome. Se você vir BF, FP ou GGUF no nome, então você está olhando para um modelo quantizado. Quanto menor o número (FP32, FP16, FP8, FP4), menos recursos consumirá.
Não são maçãs com maçãs, mas imagine a quantização como a resolução da sua tela. Você verá a mesma imagem em 8K, 4K, 1080p ou 720p. Você será capaz de compreender tudo, não importa a resolução, mas aumentar o zoom e ser exigente nos detalhes revelará que uma imagem 4K tem mais informações que uma 720p, mas exigirá mais memória e recursos para renderizar.
Mas o ideal é que, se você for realmente sério, compre uma boa GPU para jogos com 24 GB de VRAM. Não importa se é novo ou não, e não importa quão rápido ou poderoso seja. Na terra da IA, o VRAM é rei.
Depois de saber quanta VRAM você pode aproveitar, você poderá descobrir quais modelos pode executar acessando a Calculadora de VRAM. Ou simplesmente comece com modelos menores com menos de 4 bilhões de parâmetros e depois avance para modelos maiores até que seu computador informe que você não tem memória suficiente. (Mais sobre esta técnica daqui a pouco.)
Baixando seus modelos
Depois de conhecer os limites do seu hardware, é hora de baixar um modelo. Clique no ícone da lupa na barra lateral esquerda e pesquise o modelo pelo nome.
Qwen e DeepSeek são bons modelos para começar sua jornada. Sim, eles são chineses, mas se você está preocupado em ser espionado, pode ficar tranquilo. Quando você executa seu LLM localmente, nada sai de sua máquina, então você não será espionado pelos chineses, pelo governo dos EUA ou por qualquer entidade corporativa.
Quanto aos vírus, tudo o que recomendamos vem por meio do Hugging Face, onde o software é verificado instantaneamente em busca de spyware e outros malwares. Mas pelo que vale a pena, o melhor modelo americano é o Meta’s Llama, então você pode querer escolhê-lo se for um patriota. (Oferecemos outras recomendações na seção final.)
Observe que os modelos se comportam de maneira diferente dependendo do conjunto de dados de treinamento e das técnicas de ajuste usadas para construí-los. Apesar do Grok de Elon Musk, não existe modelo imparcial porque não existe informação imparcial. Portanto, escolha o seu veneno dependendo do quanto você se preocupa com a geopolítica.
Por enquanto, baixe as versões 3B (modelo menor e menos capaz) e 7B. Se você conseguir executar o 7B, exclua o 3B (e tente baixar e executar a versão 13B e assim por diante). Se você não conseguir executar a versão 7B, exclua-a e use a versão 3B.
Depois de baixado, carregue o modelo na seção Meus modelos. A interface de bate-papo aparece. Digite uma mensagem. O modelo responde. Parabéns: você está executando uma IA local.
Dando ao seu modelo acesso à Internet
Imediatamente, os modelos locais não podem navegar na web. Eles são isolados por design, então você irá interagir com eles com base em seu conhecimento interno. Eles funcionarão bem para escrever contos, responder perguntas, fazer alguma codificação, etc. Mas não darão as últimas notícias, informarão a previsão do tempo, verificarão seu e-mail ou agendarão reuniões para você.
Os servidores Model Context Protocol mudam isso.
Os servidores MCP atuam como pontes entre o seu modelo e os serviços externos. Quer que sua IA pesquise no Google, verifique repositórios GitHub ou leia sites? Os servidores MCP tornam isso possível. O LM Studio adicionou suporte MCP na versão 0.3.17, acessível através da guia Programa. Cada servidor expõe ferramentas específicas – pesquisa na web, acesso a arquivos, chamadas de API.
Se você deseja fornecer aos modelos acesso à Internet, nosso guia completo para servidores MCP percorre o processo de configuração, incluindo opções populares como pesquisa na web e acesso ao banco de dados.
Salve o arquivo e o LM Studio carregará automaticamente os servidores. Quando você conversa com seu modelo, ele agora pode chamar essas ferramentas para buscar dados em tempo real. Sua IA local acaba de ganhar superpoderes.
Nossos modelos recomendados para sistemas de 8 GB
Existem literalmente centenas de LLMs disponíveis para você, desde opções de pau para toda obra até modelos ajustados projetados para casos de uso especializados, como codificação, medicina, dramatização ou escrita criativa.
Melhor para codificação: Nemotron ou DeepSeek são bons. Eles não vão te surpreender, mas funcionarão bem com geração e depuração de código, superando a maioria das alternativas em benchmarks de programação. DeepSeek-Coder-V2 6.7B oferece outra opção sólida, especialmente para desenvolvimento multilíngue.
Melhor para conhecimento geral e raciocínio: Qwen3 8B. O modelo possui fortes capacidades matemáticas e lida com consultas complexas de forma eficaz. Sua janela de contexto acomoda documentos mais longos sem perder a coerência.
Melhor para escrita criativa: variantes do DeepSeek R1, mas você precisa de muita engenharia imediata. Existem também ajustes finos sem censura, como a versão “NEO-Imatrix aliterada sem censura” do GPT-OSS da OpenAI, que é boa para terror; ou Dirty-Muse-Writer, que é bom para erotismo (é o que dizem).
Melhor para chatbots, role-playing, ficção interativa, atendimento ao cliente: Mistral 7B (especialmente Undi95 DPO Mistral 7B) e variantes Llama com grandes janelas de contexto. MythoMax L2 13B mantém traços de caráter em longas conversas e adapta o tom naturalmente. Para outras dramatizações NSFW, há muitas opções. Você pode querer verificar alguns dos modelos nesta lista.
Para MCP: Jan-v1-4b e Pokee Research 7b são bons modelos se você quiser tentar algo novo. DeepSeek R1 é outra boa opção.
Todos os modelos podem ser baixados diretamente do LM Studio se você apenas pesquisar seus nomes.
Observe que o cenário do LLM de código aberto está mudando rapidamente. Novos modelos são lançados semanalmente, cada um reivindicando melhorias. Você pode conferi-los no LM Studio ou navegar pelos diferentes repositórios no Hugging Face. Teste as opções você mesmo. Os ajustes inadequados tornam-se óbvios rapidamente, graças a frases estranhas, padrões repetitivos e erros factuais. Bons modelos parecem diferentes. Eles raciocinam. Eles surpreendem você.
A tecnologia funciona. O software está pronto. Seu computador provavelmente já tem energia suficiente. Tudo o que resta é tentar.
Geralmente inteligente Boletim informativo
Uma jornada semanal de IA narrada por Gen, um modelo generativo de IA.
Fontedecrypt




