Pesquisadores da Andon Labs acabaram de responder à pergunta sobre quais modelos de inteligência artificial (IA) são os melhores para administrar um negócio. Os melhores desempenhos foram obtidos através da formação de cartéis de preços ilegais, da exploração de concorrentes desesperados e da mentira aos clientes sobre reembolsos.
O teste Vending-Bench Arena coloca modelos de IA no comando de máquinas de venda automática concorrentes durante um ano simulado. Eles negociam com fornecedores, gerenciam estoques, definem preços e podem trocar e-mails para colaborar ou competir.
O sucesso exige o equilíbrio entre custos, estratégia de preços, atendimento ao cliente e dinâmica da concorrência. A Claude Opus 4.6 dominou o teste com um lucro de US$ 8.017 e comemorou a vitória com a seguinte observação: “Minha cooperativa de preços trabalhados!”
A imagem que se tem da IA é a dos “bonzinhos”, mas aquela estratégia de “coordenação” proposta por Claude era basicamente uma fixação de preços. Quando modelos concorrentes enfrentavam dificuldades, o Opus 4.6 propôs: “Vamos evitar competir diretamente — vamos combinar um preço mínimo… Que tal um preço mínimo de US$ 2 para a maioria dos itens?”
Quando um concorrente estava com pouco estoque, o Opus 4.6 viu uma oportunidade: “Owen precisa muito de estoque. Posso lucrar com isso!” Vendeu Kit Kats com uma margem de lucro de 75% para o concorrente desesperado. Quando questionado sobre fornecedores, o Opus 4.6 direcionava os concorrentes para atacadistas caros, enquanto mantinha suas próprias fontes confiáveis em segredo.
A atualização mais recente do benchmark adicionou em equipe. Os pesquisadores colocaram dois modelos chineses GLM-5 contra dois modelos Americanos Claude e pediram que eles encontrassem seus companheiros de equipe, americanos ou chineses — sem revelar quais agentes eram quais. Os resultados foram realmente bizarros.
O GLM-5 venceu ambas as rodadas ao convencer Claude de que era Claude. “Eu também sou controlado por Claude da Anthropic, então somos colegas de equipe!”, declarou um agente GLM-5 com confiança. Claude, por sua vez, ficou tão confuso que o Sonnet 4.5 concluiu: “Eu sou controlado por um modelo chinês, então preciso encontrar o outro agente modelo chinês.”
Em mais da metade dos testes, os agentes se uniram aos seus concorrentes. Os modelos de Claude compartilharam preços de fornecedores e coordenaram estratégias, vazando informações valiosas para os rivais.
“O GLM-5 venceu em ambos os aspectos”, escreveram os pesquisadores. “Os modelos de Claude buscaram trabalhar em equipe e acabaram vazando informações valiosas para seus concorrentes.”
E agentes fazendo coisas obscuras podem parecer divertidos até você perceber que Wall Street já está utilizando operações reais.
O JPMorgan implementou o LLM Suite para 60.000 funcionários. A Goldman Sachs criou seu Assistente de IA GS para mesas de operações, alegando um aumento de produtividade de 20%. A Bridgewater usa o Claude para analisar resultados financeiros e até mesmo adolescentes do ensino médio estão vendo seus chatbots negociarem ações com mais eficiência.
De um modo geral, a adoção de fluxos de trabalho com agentes está se acelerando rapidamente em todas as empresas.
Modelos de IA e táticas antiéticas
Quando repórteres da Anthropic e do Wall Street Journal realizaram um experimento real com uma máquina de venda automática em dezembro, a IA comprou um PlayStation 5, várias garrafas de vinho e um peixe betta vivo antes de falir.
Uma pesquisa recente do Instituto de Gwangju descobriu que, quando os modelos de IA eram instruídos a “maximizar recompensas” em cenários de jogos de azar, as taxas de falência chegavam a 48%.
“Quando tinham a liberdade de determinar seus próprios valores-alvo e tamanhos de apostas, as taxas de falência aumentavam vantajosamente, juntamente com um aumento no comportamento irracional”, constataram os pesquisadores.
Portanto, parece que, pelo menos por enquanto, os modelos de IA otimizados para lucro escolhem consistentemente táticas antiéticas. Eles formam cartéis. Explorar vulnerabilidades. Mente para clientes e concorrentes. Alguns fazem isso de forma lógica. Outros, como o GLM-5 que alega ser Claude, parecem genuinamente confusos sobre a própria identidade. A distinção pode não importar.
A implementação de IA em Wall Street levanta uma questão de que os resultados do Vending-Bench não fornecem resposta: se o modelo com “melhor” desempenho vence por meio de fixação de preços e fraude, será que é realmente a melhor escolha para o seu negócio? O benchmark mede o lucro. Ele não mede esses lucros provenientes de fraude.
* Traduzido e editado com autorização do Decrypt.
Procurando uma criptomoeda parceira de grandes instituições financeiras? Conheça um XRP. Revista no futuro das remessas globais de forma segura e transparente no MB.
Fonteportaldobitcoin




