Microsoft Experience Center, New York. Image: Shutterstock/Decrypt

Em resumo

  • Fara1.5-27B obteve pontuação de 72% no Online-Mind2Web, superando OpenAI Operator (58,3%) e Gemini 2.5 Computer Use (57,3%).
  • Os modelos são de peso aberto, vêm em tamanhos de parâmetros de 4 bilhões, 9 bilhões e 27 bilhões e são construídos em Qwen 3.5 ajustado.
  • Fara1.5-9B já está disponível no Azure AI Foundry; 4B e 27B chegam em breve.

Imagine pedir ao seu computador para procurar aluguéis por temporada, comparar cinco sites, preencher o formulário de reserva e confirmar aquele mais próximo da praia. Você vai fazer café. Está feito quando você voltar. Essa é a promessa dos “agentes de uso de computador” – IA que lê a tela do seu navegador e clica, rola e digita exatamente como um ser humano faria, sem a necessidade de plug-ins especiais.

A OpenAI tentou isso primeiro com o Operator, lançado em janeiro de 2025 por US$ 200 por mês, antes de ser transformado no ChatGPT Agent e encerrado em agosto. O Google tem uso de computador Gemini 2.5. Ambos são proprietários, baseados em nuvem e caros de operar.

Esta semana, a Microsoft Research lançou um pequeno modelo chamado Fara1.5 – e nos benchmarks que contam, ele supera os dois.

A família vem em três tamanhos: 4 bilhões, 9 bilhões e 27 bilhões de parâmetros, todos construídos no Qwen3.5, um modelo básico do Alibaba que a Microsoft ajustou para funcionar em navegadores, com todos os pesos divulgados publicamente. (Os parâmetros são o que determinam a amplitude de conhecimento de um modelo de IA, significando de forma mais geral uma capacidade mais alta.)

Chegar lá exigiu repensar todo o processo de desenvolvimento do zero. “Começamos com uma pergunta simples: o que é necessário para tornar um modelo pequeno genuinamente bom em tarefas de agência?” a equipe AI Frontiers escreveu. “A resposta abrangeu todo o ciclo de vida: a geração de dados, os objetivos de treinamento, o design do modelo e a orquestração tiveram que ser reprojetados em conjunto, e não isoladamente.”

Os benchmarks

Online-Mind2Web é a referência que importa na tarefa que a Microsoft queria se destacar. Ele testa a frequência com que um agente de IA conclui corretamente 300 tarefas diversas do mundo real em 136 sites populares ao vivo – coisas como comparação de produtos, preenchimento de formulários e serviços de reserva – pontuadas como uma porcentagem de tarefas concluídas corretamente na Internet real e em constante mudança.

Fara1.5-27B marcou 72%. Operador OpenAI pontuou 58,3%. O uso de computador Gemini 2.5 do Google obteve pontuação de 57,3%. O Navigator n1 da Yutori, a principal alternativa proprietária, atingiu 64,7%. Até o Fara1.5-9B, o modelo de médio porte, atingiu 63,4% – à frente do OpenAI e do Google.

Os rivais de código aberto também ficaram aquém. O GUI-Owl-1.5 do Alibaba com 8 bilhões de parâmetros obteve 48,6%. MolmoWeb da AI2 obteve 35,3%. O modelo anterior da Microsoft, Fara-7B, obteve 34,1% – tornando este lançamento quase o dobro do seu antecessor em um tamanho comparável.

No WebVoyager, um segundo benchmark que mede o sucesso de tarefas na web ao vivo teve a mesma pontuação, Fara1.5-27B atingiu 88,6%, superando os 87,0% do OpenAI Operator e superando o Holo2 de 30 bilhões de parâmetros da H Company em 83,0%.

Como aprendeu

O molho secreto é o pipeline de treinamento. A Microsoft usou um sistema chamado FaraGen1.5 para gerar os dados de treinamento. Aqui está a parte inteligente: eles usaram o GPT-5.4 – modelo da OpenAI – como um “agente professor” para demonstrar como concluir tarefas do navegador. Essas demonstrações se tornam os dados de treinamento do Fara1.5. Você está essencialmente usando o modelo mais capaz do OpenAI para treinar um modelo rival de código aberto.

Eles também criaram seis réplicas falsas e totalmente funcionais de sites reais – clientes de e-mail, calendários, mercados – para que o modelo pudesse praticar tarefas que exigem logins ou ações irreversíveis (como enviar um e-mail ou reservar um voo) sem tocar em contas reais. Isso é chamado de treinamento de domínio sintético e é uma parte significativa do motivo pelo qual o Fara1.5 lida com tarefas “bloqueadas” melhor do que seus antecessores.

Todo modelo é projetado para parar e perguntar antes de fazer algo que não pode ser desfeito. “Equilibrar salvaguardas robustas, como pontos críticos, com jornadas de usuário contínuas é fundamental”, disse Yash Lara, líder sênior de PM da Microsoft Research, à VentureBeat. “Ter uma UI, como a Magentic-UI da Microsoft Research, é vital para dar aos usuários oportunidades de intervir quando necessário, ao mesmo tempo que ajuda a evitar o cansaço da aprovação.”

Isso é importante porque a OpenAI não foi sutil quanto aos riscos quando lançou o ChatGPT Agent. “Quando você inscreve o agente ChatGPT em sites ou habilita conectores, ele será capaz de acessar dados confidenciais dessas fontes, como e-mails, arquivos ou informações de conta”, escreveu a empresa.

Fara1.5 executa tudo por meio do MagenticLite, um ambiente de navegador em sandbox que registra todas as ações e permite que os usuários interrompam o agente a qualquer momento.

A IA do navegador tornou-se uma corrida lotada – Gemini do Google no Chrome, Comet da Perplexity, Claude da Anthropic para o Chrome. A vantagem do Fara1.5 é que ele é aberto: pesos públicos, código de inferência aberto no GitHub, executado em hardware que você controla. Fara1.5-9B já está disponível no Azure AI Foundry; as variantes 4B e 27B chegam em breve. A Microsoft diz que planeja expandir o Fara1.5 além do navegador e em seguida para desktop e software empresarial.

Resumo Diário Boletim informativo

Comece cada dia com as principais notícias do momento, além de recursos originais, podcast, vídeos e muito mais.

Fontedecrypt

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *