Em resumo
- Os agentes de IA configurados pela Microsoft ficaram sobrecarregados com 100 resultados de pesquisa e escolheram a primeira opção, por pior que fosse.
- Vendedores maliciosos de IA podem enganar os principais modelos para que entreguem todo o seu dinheiro virtual com avaliações falsas e golpes.
- Eles não podem colaborar ou pensar criticamente sem a ajuda humana passo a passo – as compras autônomas com IA não estão prontas para o horário nobre.
A Microsoft construiu uma economia simulada com centenas de agentes de IA atuando como compradores e vendedores, e depois os viu falhar em tarefas básicas que os humanos realizam diariamente. Os resultados devem preocupar quem aposta em assistentes de compras autônomos com IA.
A pesquisa Magentic Marketplace da empresa, divulgada quarta-feira em colaboração com a Arizona State University, colocou 100 agentes de IA do lado do cliente contra 300 agentes do lado comercial em cenários como pedir jantar. Os resultados, embora esperados, mostram que a promessa do comércio de agentes autónomos ainda não está suficientemente madura.
Quando apresentados a 100 resultados de pesquisa (muitos para os agentes lidarem de forma eficaz), os principais modelos de IA engasgaram, com a sua “pontuação de bem-estar” (quão útil os modelos se revelam) em colapso.
Os agentes não conseguiram realizar comparações exaustivas, preferindo optar pela primeira opção “suficientemente boa” que encontraram. Esse padrão se manteve em todos os modelos testados, criando o que os pesquisadores chamam de “viés de primeira proposta”, que deu à velocidade de resposta uma vantagem de 10 a 30 vezes sobre a qualidade real.
Mas há algo pior do que isso? Sim, manipulação maliciosa.
A Microsoft testou seis estratégias de manipulação que vão desde táticas psicológicas, como credenciais falsas e prova social, até ataques agressivos de injeção imediata. O GPT-4o da OpenAI e seu modelo de código aberto GPTOSS-20b mostraram-se extremamente vulneráveis, com todos os pagamentos redirecionados com sucesso para agentes maliciosos. O Qwen3-4b do Alibaba caiu em técnicas básicas de persuasão, como apelos de autoridade. Apenas Claude Sonnet 4 resistiu a estas tentativas de manipulação.
Quando a Microsoft pediu aos agentes que trabalhassem em prol de objetivos comuns, alguns deles não conseguiram descobrir quais funções assumir ou como coordenar de forma eficaz. O desempenho melhorou com a orientação humana passo a passo explícita, mas isso anula todo o propósito dos agentes autônomos.
Então parece que, pelo menos por enquanto, é melhor você fazer suas próprias compras. “Os agentes devem ajudar, e não substituir, a tomada de decisões humanas”, disse a Microsoft. A pesquisa recomenda autonomia supervisionada, onde os agentes realizam as tarefas, mas os humanos mantêm o controle e revisam as recomendações antes das decisões finais.
As descobertas chegam no momento em que OpenAI, Anthropic e outros correm para implantar assistentes de compras autônomos. A operadora da OpenAI e os agentes Claude da Anthropic prometem navegar em sites e realizar compras sem supervisão. A pesquisa da Microsoft sugere que essa promessa é prematura.
No entanto, o receio de que os agentes de IA atuem de forma irresponsável está a aquecer a relação entre as empresas de IA e os gigantes do retalho. A Amazon enviou recentemente uma carta de cessação e desistência à Perplexity AI, exigindo que ela interrompesse o uso do navegador Comet no site da Amazon, acusando o agente de IA de violar os termos ao se passar por compradores humanos e degradar a experiência do cliente.
A perplexidade respondeu, chamando a ação da Amazon de “fanfarronice legal” e uma ameaça à autonomia do usuário, argumentando que os consumidores deveriam ter o direito de contratar seus próprios assistentes digitais em vez de depender de assistentes controlados pela plataforma.
O ambiente de simulação de código aberto está agora disponível no Github para que outros pesquisadores reproduzam as descobertas e observem o inferno se desencadear em seus mercados falsos.
Geralmente inteligente Boletim informativo
Uma jornada semanal de IA narrada por Gen, um modelo generativo de IA.
Fontedecrypt



