A IA gratuita da Microsoft supera a OpenAI e o Google na navegação na Web

Em resumo

Fara1.5-27B obteve pontuação de 72% no Online-Mind2Web, superando OpenAI Operator (58,3%) e Gemini 2.5 Computer Use (57,3%).
Os modelos são de peso aberto, vêm em tamanhos de parâmetros de 4 bilhões, 9 bilhões e 27 bilhões e são construídos em Qwen 3.5 ajustado.
Fara1.5-9B já está disponível no Azure AI Foundry; 4B e 27B chegam em breve.

Imagine pedir ao seu computador para procurar aluguéis por temporada, comparar cinco sites, preencher o formulário de reserva e confirmar aquele mais próximo da praia. Você vai fazer café. Está feito quando você voltar. Essa é a promessa dos “agentes de uso de computador” – IA que lê a tela do seu navegador e clica, rola e digita exatamente como um ser humano faria, sem a necessidade de plug-ins especiais.

A OpenAI tentou isso primeiro com o Operator, lançado em janeiro de 2025 por US$ 200 por mês, antes de ser transformado no ChatGPT Agent e encerrado em agosto. O Google tem uso de computador Gemini 2.5. Ambos são proprietários, baseados em nuvem e caros de operar.

Esta semana, a Microsoft Research lançou um pequeno modelo chamado Fara1.5 – e nos benchmarks que contam, ele supera os dois.

A família vem em três tamanhos: 4 bilhões, 9 bilhões e 27 bilhões de parâmetros, todos construídos no Qwen3.5, um modelo básico do Alibaba que a Microsoft ajustou para funcionar em navegadores, com todos os pesos divulgados publicamente. (Os parâmetros são o que determinam a amplitude de conhecimento de um modelo de IA, significando de forma mais geral uma capacidade mais alta.)

Chegar lá exigiu repensar todo o processo de desenvolvimento do zero. “Começamos com uma pergunta simples: o que é necessário para tornar um modelo pequeno genuinamente bom em tarefas de agência?” a equipe AI Frontiers escreveu. “A resposta abrangeu todo o ciclo de vida: a geração de dados, os objetivos de treinamento, o design do modelo e a orquestração tiveram que ser reprojetados em conjunto, e não isoladamente.”

Os benchmarks

Online-Mind2Web é a referência que importa na tarefa que a Microsoft queria se destacar. Ele testa a frequência com que um agente de IA conclui corretamente 300 tarefas diversas do mundo real em 136 sites populares ao vivo – coisas como comparação de produtos, preenchimento de formulários e serviços de reserva – pontuadas como uma porcentagem de tarefas concluídas corretamente na Internet real e em constante mudança.

Fara1.5-27B marcou 72%. Operador OpenAI pontuou 58,3%. O uso de computador Gemini 2.5 do Google obteve pontuação de 57,3%. O Navigator n1 da Yutori, a principal alternativa proprietária, atingiu 64,7%. Até o Fara1.5-9B, o modelo de médio porte, atingiu 63,4% – à frente do OpenAI e do Google.

Os rivais de código aberto também ficaram aquém. O GUI-Owl-1.5 do Alibaba com 8 bilhões de parâmetros obteve 48,6%. MolmoWeb da AI2 obteve 35,3%. O modelo anterior da Microsoft, Fara-7B, obteve 34,1% – tornando este lançamento quase o dobro do seu antecessor em um tamanho comparável.

No WebVoyager, um segundo benchmark que mede o sucesso de tarefas na web ao vivo teve a mesma pontuação, Fara1.5-27B atingiu 88,6%, superando os 87,0% do OpenAI Operator e superando o Holo2 de 30 bilhões de parâmetros da H Company em 83,0%.

Como aprendeu

O molho secreto é o pipeline de treinamento. A Microsoft usou um sistema chamado FaraGen1.5 para gerar os dados de treinamento. Aqui está a parte inteligente: eles usaram o GPT-5.4 – modelo da OpenAI – como um “agente professor” para demonstrar como concluir tarefas do navegador. Essas demonstrações se tornam os dados de treinamento do Fara1.5. Você está essencialmente usando o modelo mais capaz do OpenAI para treinar um modelo rival de código aberto.

Eles também criaram seis réplicas falsas e totalmente funcionais de sites reais – clientes de e-mail, calendários, mercados – para que o modelo pudesse praticar tarefas que exigem logins ou ações irreversíveis (como enviar um e-mail ou reservar um voo) sem tocar em contas reais. Isso é chamado de treinamento de domínio sintético e é uma parte significativa do motivo pelo qual o Fara1.5 lida com tarefas “bloqueadas” melhor do que seus antecessores.

Todo modelo é projetado para parar e perguntar antes de fazer algo que não pode ser desfeito. “Equilibrar salvaguardas robustas, como pontos críticos, com jornadas de usuário contínuas é fundamental”, disse Yash Lara, líder sênior de PM da Microsoft Research, à VentureBeat. “Ter uma UI, como a Magentic-UI da Microsoft Research, é vital para dar aos usuários oportunidades de intervir quando necessário, ao mesmo tempo que ajuda a evitar o cansaço da aprovação.”

Isso é importante porque a OpenAI não foi sutil quanto aos riscos quando lançou o ChatGPT Agent. “Quando você inscreve o agente ChatGPT em sites ou habilita conectores, ele será capaz de acessar dados confidenciais dessas fontes, como e-mails, arquivos ou informações de conta”, escreveu a empresa.

Fara1.5 executa tudo por meio do MagenticLite, um ambiente de navegador em sandbox que registra todas as ações e permite que os usuários interrompam o agente a qualquer momento.

A IA do navegador tornou-se uma corrida lotada – Gemini do Google no Chrome, Comet da Perplexity, Claude da Anthropic para o Chrome. A vantagem do Fara1.5 é que ele é aberto: pesos públicos, código de inferência aberto no GitHub, executado em hardware que você controla. Fara1.5-9B já está disponível no Azure AI Foundry; as variantes 4B e 27B chegam em breve. A Microsoft diz que planeja expandir o Fara1.5 além do navegador e em seguida para desktop e software empresarial.

Resumo Diário Boletim informativo

Comece cada dia com as principais notícias do momento, além de recursos originais, podcast, vídeos e muito mais.

Fontedecrypt

A IA gratuita da Microsoft supera a OpenAI e o Google na navegação na Web

ByJose Antonio Lanz

Em resumo

Os benchmarks

Como aprendeu

Resumo Diário Boletim informativo

By Jose Antonio Lanz

Leia Também

Os doadores de esperma precisam de limites, diz um grupo europeu de fertilidade

O download: o funcionamento interno de Claude e o “super app” da OpenAI

Traders da Binance investiram US$ 133 milhões em ações de memória durante uma queda

Deixe um comentário Cancelar resposta

Leia Também:

Os doadores de esperma precisam de limites, diz um grupo europeu de fertilidade

O download: o funcionamento interno de Claude e o “super app” da OpenAI

Traders da Binance investiram US$ 133 milhões em ações de memória durante uma queda

Memecoins do Haaland disparam, mas sobreviveram ao apito final?