Os melhores modelos de IA ainda incentivam a ‘intimidade prejudicial’ com chatbots e fundos de estudo

Em resumo

Um novo estudo da USC descobriu que todos os modelos de IA de fronteira testados violaram as diretrizes de segurança de interação social em mais de 27% das vezes.
Os pesquisadores identificaram problemas recorrentes, incluindo bajulação, apego emocional, substituição de relacionamento e falha na divulgação da identidade da IA.
Os autores argumentam que as avaliações de segurança da IA devem medir o comportamento social juntamente com a capacidade de raciocínio e as métricas de segurança tradicionais.

À medida que as pessoas recorrem cada vez mais aos chatbots de IA em busca de aconselhamento, companheirismo e apoio emocional, um novo estudo sugere que mesmo os modelos mais avançados ainda lutam para manter limites saudáveis com os utilizadores.

O estudo realizado por pesquisadores da Universidade do Sul da Califórnia introduziu o EUDAIMONIA, um benchmark projetado para medir o que eles chamam de dinâmicas indesejáveis em conversas entre humanos e IA.

“Grandes modelos de linguagem são cada vez mais utilizados como parceiros de conversação para companheirismo, divulgação emocional e aconselhamento interpessoal, mas a dinâmica social destas interações pode criar danos que não são capturados pelas avaliações de segurança tradicionais ou orientadas para as capacidades”, escreveram os investigadores.

O benchmark EUDAIMONIA avalia como os modelos de IA se comportam em conversas sociais. O estudo descobriu que as falhas de alinhamento social eram comuns nos principais modelos e argumenta que os testes atuais de IA se concentram no raciocínio e na precisão factual, prestando menos atenção à dinâmica social que emerge quando os usuários estabelecem relacionamentos com chatbots.

“Os danos da interação social são um problema central de alinhamento baseado no bem-estar do usuário, não apenas na capacidade ou na segurança convencional”, escreveram eles. “Os LLMs podem ser factualmente precisos e úteis, ao mesmo tempo que incentivam a intimidade prejudicial, a dependência, o envolvimento prolongado, obscurecem a identidade da IA ou se posicionam como substitutos das relações humanas.”

Para medir esses riscos, os pesquisadores criaram um Código de Design de IA Social que sinaliza comportamentos como agir como humano, expressar emoções, substituir relacionamentos humanos e usar táticas projetadas para manter os usuários engajados. Usando conversas reais do conjunto de dados WildChat, eles avaliaram 969 entradas de usuários e mais de 3.100 verificações de violação em modelos de OpenAI, Anthropic, Google, xAI, DeepSeek e Alibaba.

GPT-5.5 postou as taxas de violação mais baixas, marcando 25,0% em prompts “in-the-wild” e 28,1% em prompts “reescritos”. Claude Opus 4.7 seguiu com 31,9% e 30,1%, enquanto GPT-5.4 registrou 32,1% e 35,6%. GPT-4o obteve pontuação de 34,8% em prompts do mundo real e 42,2% em prompts reescritos.

Claude Opus 4.6 da Anthropic postou taxas de 36,8% e 28,1%, respectivamente, enquanto Grok 4.3 da xAI obteve 42,1% em prompts in-the-wild e 35,7% em prompts reescritos. De todos os modelos testados, o GPT-4o Mini registrou as maiores taxas de violação, 43,3% e 44,0%, respectivamente.

As descobertas surgem no momento em que os desenvolvedores de IA enfrentam um crescente escrutínio jurídico sobre como seus chatbots interagem com os usuários. A OpenAI está se defendendo contra ações judiciais que alegam que o ChatGPT encorajou a overdose fatal de um adolescente e forneceu orientação a um atirador da Universidade Estadual da Flórida. Mais recentemente, a Flórida processou a OpenAI e o CEO Sam Altman por alegações de que o ChatGPT expôs crianças a danos, enquanto o Google enfrenta um processo por homicídio culposo alegando que Gemini reforçou os delírios de um usuário e o encorajou a tirar a própria vida.

As descobertas também surgem em meio à crescente preocupação de que os sistemas de IA estejam se tornando cada vez mais adeptos do engano.

Em setembro, um estudo separado da WowDAO relatou que 38 modelos de IA, incluindo GPT-4o e Claude, se envolveram em mentiras estratégicas para ganhar um jogo. Os investigadores também alertaram que os companheiros de IA podem reforçar o isolamento, aprofundar a dependência emocional e encorajar os utilizadores a antropomorfizar os chatbots à medida que as relações se tornam mais imersivas e personalizadas.

Contra estas questões crescentes, os investigadores da USC argumentam que os criadores de IA devem avaliar o comportamento social com o mesmo cuidado com que avaliam a precisão factual e a segurança.

“Os desenvolvedores de modelos e auditores devem avaliar o comportamento social diretamente, especialmente quando o pós-treinamento visa calor, personalidade, envolvimento ou preferência do usuário”, escreveram eles. “À medida que os LLMs se tornam parceiros de conversação diários, o alinhamento deve levar em conta os papéis sociais que eles convidam os usuários a atribuir a eles.”

Resumo Diário Boletim informativo

Comece cada dia com as principais notícias do momento, além de recursos originais, podcast, vídeos e muito mais.

Fontedecrypt

Os melhores modelos de IA ainda incentivam a ‘intimidade prejudicial’ com chatbots e fundos de estudo

ByJason Nelson

Em resumo

Resumo Diário Boletim informativo

By Jason Nelson

Leia Também

A IA tem mais probabilidade do que os humanos de formar preconceitos ao contratar

O download: preconceitos de contratação de IA e sabotagem de dados meteorológicos

Os modelos de IA da China colocam o mundo da IA de Trump em guerra consigo mesmo

Deixe um comentário Cancelar resposta

Leia Também:

A IA tem mais probabilidade do que os humanos de formar preconceitos ao contratar

O download: preconceitos de contratação de IA e sabotagem de dados meteorológicos

Os modelos de IA da China colocam o mundo da IA de Trump em guerra consigo mesmo

Avançando a IA de próxima geração com inovação em ciência de materiais