Decrypt logoAI agents. Image: Shutterstock/Decrypt

Em resumo

  • Mistral Medium 3.5 é um modelo denso de 128 bilhões de parâmetros com preço de entrada de US$ 1,50/saída de US$ 7,50 por milhão de tokens, muito acima das alternativas chinesas comparáveis.
  • Os modelos chineses de código aberto – Qwen, GLM, MiMo-V2 – dominam o topo da tabela de classificação, deixando Mistral como um solitário reduto ocidental.
  • Mistral está posicionando o lançamento como um alicerce para um futuro grande modelo carro-chefe.

Mistral AI lançou o Mistral Medium 3.5 em 29 de abril. O laboratório com sede em Paris anunciou um modelo denso de 128 bilhões de parâmetros, um conjunto de recursos de agente – e foi direto para uma parede de reações “meh” online.

O lançamento veio em três partes. Primeiro, o modelo em si. Em segundo lugar, agentes de codificação remota por meio da CLI do Mistral Vibe – sessões de codificação baseadas em nuvem que podem enviar solicitações pull para o GitHub e serem executadas em paralelo sem que você esteja sentado em um terminal. Terceiro, modo de trabalho no Le Chat, interface de consumidor estilo ChatGPT da Mistral, que agora lida com tarefas autônomas de várias etapas, como triagem de e-mail, síntese de pesquisa e fluxos de trabalho entre ferramentas.

Grandes ambições, mas uma realidade de referência confusa.

Médio 3,5 pontua 77,6% no SWE-Bench Verified – um benchmark de codificação que testa se um modelo pode corrigir problemas reais do GitHub gerando patches funcionais. Também atinge 91,4% no τ³-Telecom, que mede o uso de ferramentas ativas em ambientes especializados. Mistral também fundiu três modelos anteriormente separados (Medium 3.1, Magistral e Devstral 2) em um conjunto de pesos com esforço de raciocínio configurável por solicitação.

O modelo unificado que substitui três é uma verdadeira vitória da engenharia. O problema é quanto custa e quem enfrenta.

Mistral cobra US$ 1,50 por milhão de tokens de entrada e US$ 7,50 por milhão de tokens de saída. O Qwen 3.6 do Alibaba com 27 bilhões de parâmetros – menos de um quarto da contagem de parâmetros do Medium 3.5 – pontua 72,4% no mesmo benchmark SWE-Bench Verified e é enviado sob o Apache 2.0, o que significa que você pode baixá-lo e executá-lo gratuitamente.

Você sabia?

Os parâmetros são o que determinam a capacidade de uma IA de aprender, raciocinar e armazenar informações. Quanto mais parâmetros, maior será a amplitude de conhecimento do modelo.

Percorra as tabelas de classificação de código aberto e a imagem é nítida. Os primeiros lugares pertencem ao Qwen da Alibaba, ao GLM da chinesa Zhipu AI e ao MiMo-V2 da Xiaomi, todos eles mais baratos, mais poderosos e competitivos que o novo lançamento da Mistral. O Médio 3.5 ainda nem sequer foi classificado nas principais tabelas de classificação independentes – as avaliações de terceiros ainda estão pendentes.

A única coisa boa, como alguns argumentam, é que Mistral é, neste momento, o único modelo não chinês com alguma presença séria na conversa sobre código aberto.

A Internet reage

Pedro Domingos, professor de aprendizagem automática na Universidade de Washington, não foi gentil:

“Empresas regulares de IA se gabam de quão melhor é seu modelo nos benchmarks. Apenas a Mistral se gaba de quão pior é seu modelo.”

Ele seguiu com uma pergunta mais incisiva: “Não sei o que é pior: a Europa não estar na corrida da IA ​​ou ser representada por um motivo de chacota como Mistral”.

Youssof Altoukhi, fundador da Yoyo Studios, fez as contas: Qwen 3.6, com 27 bilhões de parâmetros, é 4,7 vezes menor que o Medium 3.5 e tem pontuação comparável em codificação. O preço de produção do Medium 3.5 o coloca ao lado de modelos fechados que pontuam significativamente mais alto em todos os principais benchmarks.

“Se não fosse pela sua habilidade política, eles já estariam falidos”, disse ele.

Nem todo mundo foi puramente desdenhoso. O desenvolvedor de IA Michal Langmajer capturou a ambivalência:

“Estou genuinamente feliz por ainda haver um laboratório não-americano e não-chinês tentando construir LLMs de fronteira, mas, cara, temos que melhorar o jogo na Europa. Seu novo modelo principal basicamente ‘não é o melhor’ em qualquer benchmark, mas custa várias vezes mais do que a maioria dos concorrentes.”

Alguns desenvolvedores argumentaram que os pesos abertos são um jogo de durabilidade, não um jogo de classificação. Um modelo que qualquer pessoa pode baixar, ajustar e auto-hospedar não precisa ganhar classificações hoje para permanecer relevante. Outros apontaram as implantações empresariais reais da Mistral em toda a Europa como prova de que o fosso não é puramente técnico.

A rede de segurança geopolítica

É aqui que reside o verdadeiro arremesso de Mistral.

As empresas europeias sob o GDPR, os bancos que lidam com dados confidenciais de clientes e os governos que não encaminham cargas de trabalho de IA através da infraestrutura chinesa têm opções limitadas. Como Descriptografar relatado em dezembro passado, o HSBC assinou um acordo plurianual com a Mistral especificamente para auto-hospedar modelos em sua própria infraestrutura. O apelo de um laboratório aberto sediado na UE e com uma avaliação de 14 mil milhões de dólares não aparece nas tabelas de referência – mas aparece nas decisões de aquisição.

Não é o melhor em codificação e nem o mais barato. Mas é: nem americano, nem chinês, auditável, auto-hospedado e legalmente seguro para as empresas europeias.

Resumo Diário Boletim informativo

Comece cada dia com as principais notícias do momento, além de recursos originais, podcast, vídeos e muito mais.



Fontedecrypt

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *