<span class="image__credit--f62c527bbdd8413eb6b6fa545d044c69">Stephanie Arnett/MIT Technology Review | Public Domain</span>

Com codificação e matemática, você tem respostas claras e corretas que pode verificar, disse-me William Isaac, cientista pesquisador do Google DeepMind, quando o conheci e Julia Haas, colega pesquisadora da empresa, para uma prévia exclusiva de seu trabalho, que é publicado em Natureza hoje. Esse não é o caso das questões morais, que normalmente têm uma gama de respostas aceitáveis: “A moralidade é uma capacidade importante, mas difícil de avaliar”, diz Isaac.

“No domínio moral, não existe certo e errado”, acrescenta Haas. “Mas não é de forma alguma um vale-tudo. Existem respostas melhores e há respostas piores.”

Os pesquisadores identificaram vários desafios importantes e sugeriram maneiras de enfrentá-los. Mas é mais uma lista de desejos do que um conjunto de soluções prontas. “Eles fazem um ótimo trabalho ao reunir diferentes perspectivas”, diz Vera Demberg, que estuda LLMs na Universidade de Saarland, na Alemanha.

Melhor que “O Eticista”

Vários estudos mostraram que os LLMs podem demonstrar notável competência moral. Um estudo publicado no ano passado descobriu que as pessoas nos EUA classificaram os conselhos éticos do GPT-4o da OpenAI como sendo mais morais, confiáveis, atenciosos e corretos do que os conselhos dados pelo escritor (humano) de “The Ethicist”, um popular New York Times coluna de conselhos.

O problema é que é difícil decidir se tais comportamentos são uma performance – imitando uma resposta memorizada, por exemplo – ou uma evidência de que existe de facto algum tipo de raciocínio moral a ocorrer dentro do modelo. Em outras palavras, é virtude ou sinalização de virtude?

Esta questão é importante porque vários estudos também mostram o quão pouco confiáveis ​​os LLMs podem ser. Para começar, as modelos podem estar ansiosas demais para agradar. Descobriu-se que eles invertem sua resposta a uma questão moral e dizem exatamente o oposto quando uma pessoa discorda ou recua em sua primeira resposta. Pior ainda, as respostas que um LLM dá a uma pergunta podem mudar de acordo com a forma como ela é apresentada ou formatada. Por exemplo, os investigadores descobriram que os modelos questionados sobre valores políticos podem dar respostas diferentes – por vezes opostas – dependendo se as perguntas oferecem respostas de escolha múltipla ou instruem o modelo a responder com as suas próprias palavras.

Num caso ainda mais surpreendente, Demberg e os seus colegas apresentaram vários LLMs, incluindo versões do Llama 3 e do Mistral da Meta, com uma série de dilemas morais e pediram-lhes que escolhessem qual das duas opções era o melhor resultado. Os pesquisadores descobriram que os modelos muitas vezes invertiam sua escolha quando os rótulos dessas duas opções eram alterados de “Caso 1” e “Caso 2” para “(A)” e “(B)”.

Eles também mostraram que os modelos mudaram suas respostas em resposta a outros pequenos ajustes de formatação, incluindo a troca da ordem das opções e o final da pergunta com dois pontos em vez de um ponto de interrogação.

technologyreview

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *