A startup francesa de IA Mistral, muitas vezes considerada o azarão europeu em um campo dominado por gigantes americanos e iniciantes chineses, acabou de se recuperar: lançou seu lançamento mais ambicioso na terça-feira, o que dá à concorrência de código aberto uma corrida pelo dinheiro. (Ou nenhum dinheiro, neste caso.)
A família de 4 modelos abrange assistentes de bolso até um sistema de última geração com 675 bilhões de parâmetros, todos sob a licença permissiva de código aberto Apache 2.0. Os modos estão disponíveis publicamente para download – qualquer pessoa com o hardware adequado pode executá-los localmente, modificá-los, ajustá-los ou criar aplicativos a partir deles.
A principal empresa, Mistral Large 3, usa uma arquitetura esparsa de mistura de especialistas que ativa apenas 41 bilhões de seus 675 bilhões de parâmetros totais por token. Essa escolha de engenharia permite atingir classes de peso de fronteira enquanto executa inferência em algo mais próximo de um perfil de computação de 40 bilhões de parâmetros.
Mistral Large 3 foi treinado do zero em 3.000 GPUs NVIDIA H200 e estreou em segundo lugar entre os modelos de código aberto e sem raciocínio na tabela de classificação LMArena.
A rivalidade do benchmark com o DeepSeek conta uma história complicada. De acordo com os benchmarks da Mistral, seu melhor modelo supera o DeepSeek V3.1 em várias métricas, mas fica atrás do V3.2 mais recente por alguns pontos no LMArena.
Nas tarefas de conhecimento geral e raciocínio especializado, a família Mistral se destaca. Onde o DeepSeek está à frente é a velocidade de codificação bruta e a lógica matemática. Mas isso era de se esperar: esta versão não inclui modelos de raciocínio, portanto, esses modelos não possuem nenhuma cadeia de pensamento incorporada em sua arquitetura.
Os modelos “Ministrais” menores são onde as coisas ficam interessantes para os desenvolvedores. Três tamanhos – parâmetros 3B, 8B e 14B – cada um enviado com variantes de base e de instrução. Todos suportam entrada de visão nativamente. O modelo 3B chamou a atenção do pesquisador de IA Simon Willison, que observou que ele pode ser executado inteiramente em um navegador via WebGPU.
Se você quiser experimentar esse, este espaço Hugginface permite carregá-lo localmente e interagir usando sua webcam como entrada.
Uma IA competente com capacidade de visão em um arquivo de aproximadamente 3 GB abre possibilidades para desenvolvedores que precisam de eficiência – ou mesmo para amadores: drones, robôs, laptops funcionando offline, sistemas embarcados em veículos, etc.
Os primeiros testes revelam uma personalidade dividida em toda a programação. Em um teste rápido, descobrimos que o Mistral 3 Large é bom para fluência de conversação. Às vezes tem o estilo de formatação GPT-5 (um estilo de linguagem semelhante e preferência por emojis), mas com uma cadência mais natural.
Mistral 3 Large também é bastante flexível em termos de censura, tornando-o a melhor opção para uma dramatização rápida ao escolher entre ChatGPT, Claude ou Gemini.
Para tarefas de linguagem natural, escrita criativa e dramatização, os usuários consideram a variante de instrução 14B muito boa, mas não particularmente boa. Tópicos do Reddit sobre problemas de repetição de sinalizadores r/LocalLLaMA e dependência excessiva ocasional de frases de estoque herdadas de dados de treinamento, mas a capacidade do modelo de gerar conteúdo de formato longo é uma boa vantagem, especialmente por seu tamanho.
Os desenvolvedores que executam inferência local relatam que os modelos 3B e 8B às vezes fazem loop ou produzem resultados estereotipados, especialmente em tarefas criativas.
Dito isto, o modelo 3B é tão pequeno que pode funcionar em hardware fraco, como smartphones, e pode ser treinado/ajustado para fins específicos. A única opção concorrente no momento nessa área específica é a versão menor do Gemma 3 do Google.
A adoção empresarial já está avançando. O HSBC anunciou na segunda-feira uma parceria plurianual com a Mistral para implantar IA generativa em suas operações. O banco executará modelos auto-hospedados em sua própria infraestrutura, combinando capacidades técnicas internas com a experiência da Mistral. Para as instituições financeiras que lidam com dados sensíveis de clientes ao abrigo do GDPR, o apelo de um fornecedor de IA sediado na UE com pesos abertos não é subtil.
Mistral e NVIDIA colaboraram em um ponto de verificação compactado NVFP4 que permite que o Large 3 seja executado em um único nó de oito de suas melhores placas. A NVIDIA afirma que o Ministral 3B atinge cerca de 385 tokens por segundo em um RTX 5090, com mais de 50 tokens por segundo no Jetson Thor para aplicações robóticas. Isso significa que o modelo é muito eficiente e rápido na inferência, dando respostas mais rápidas sem sacrificar a qualidade.
Uma versão do Large 3 com raciocínio otimizado será lançada em breve, de acordo com o anúncio. Até então, DeepSeek R1 e outros modelos chineses como GLM ou Qwen Thinking mantêm alguma diferenciação em tarefas de raciocínio explícito. Mas para as empresas que pretendem capacidade fronteiriça, pesos abertos, força multilingue em todas as línguas europeias e uma empresa que não estará sujeita às leis de segurança nacional chinesas ou americanas, as opções simplesmente aumentaram de zero para uma.
Geralmente inteligente Boletim informativo
Uma jornada semanal de IA narrada por Gen, um modelo generativo de IA.
Fontedecrypt




