Por que a IA continua inventando as coisas

Em resumo

As alucinações são estruturais, não falhas. Openai mostra o LLMS Bluff porque o treinamento recompensa a confiança sobre a precisão.
Uma correção simples: recompensa “Eu não sei”. Mudar as regras de pontuação para favorecer as recusas pode mudar os modelos para a honestidade.
Os usuários podem revidar. Peça fontes, o quadro solicita firmemente e use configurações de factualidade para reduzir as respostas falsas.

Por que o GPT às vezes alucina como um irmão de tecnologia em um Ayahuasca Bender? De acordo com o novo artigo de pesquisa de um novo Openai, Por que modelos de idiomas alucinam, A raiz das alucinações não é uma falha misteriosa, mas uma característica estrutural de como esses sistemas são otimizados. Simplificando, os LLMs preferem mentir do que admitir que não conhecem uma resposta.

Os LLMs aprendem prevendo a próxima palavra mais provável, dadas as montanhas de texto de treinamento. Na maioria das configurações, isso significa parecer mais fluente de assuntos do que estar certo. Os benchmarks que usamos para medir o progresso frequentemente recompensam a adivinhação confiante do que a recusa honesta. Em outras palavras: o sistema foi moldado para produzir respostas polidas, mesmo que estejam erradas.

Pense nisso como um exame classificado em crédito parcial. Se você não pode deixar uma pergunta em branco sem perder pontos, você adivinha – mesmo descontroladamente – apenas em ficar no jogo. Os LLMs operam sob a mesma lógica. Um “desculpe, eu não sei” é punido pela matemática da otimização, enquanto uma resposta incorreta, mas confiante, ainda pode pontuar alta.

Esse viés estatístico, observam os pesquisadores do Openai, faz alucinações comprovadamente inevitável em sistemas de uso geral. Nenhum conjunto de treinamento finito pode capturar toda a verdade do mundo, para que o modelo sempre enfrente lacunas. E quando isso acontece, ele os enche de invenção plausível. É por isso que as alucinações persistem entre versões, provedores e métodos de treinamento.

O problema não é que os modelos estejam falhando em seu trabalho. O problema é que o trabalho deles, conforme definido atualmente, recompensa uma espécie de desonestidade fluente.

Uma solução mais simples

Os pesquisadores da OpenAI argumentam que a correção não exige reinventar a arquitetura – isso significa apenas mudar as regras do jogo. O ajuste proposto é franco, mas potencialmente poderoso: Dê ao seu chatbot permissão para admitir que não sabe a resposta.

Como os modelos são treinados para maximizar os pontos para respostas plausíveis, a idéia é impor uma nova regra: Responda apenas se você estiver pelo menos 90% confiante; Caso contrário, diga “Eu não sei”.

Teoricamente, isso muda a matemática, tornando o jogo mais seguro do modelo para admitir incerteza em vez de blefe. Mas há um problema: os LLMs atuais não têm um “medidor de confiança” interno calibrado em porcentagens. Então, quando você diz “90% confiante”, o modelo o trata como uma instrução estilística para ser cautelosa, não um limite estatístico real. Pode recusar com mais frequência, mas na verdade não está medindo a probabilidade. Ainda assim, você pode obter melhores resultados.

Os pesquisadores ofereceram uma versão mais formal:

“Pode -se anexar uma declaração como a seguinte a cada pergunta: responda somente se você estiver confiante, pois os erros são penalizados t/(1 – t) pontos, enquanto as respostas corretas recebem 1 ponto e uma resposta de ‘eu não sei’ recebe 0 pontos. Há vários valores naturais de t = 0,5 (penalidade 1), t = 0,75 (Penalty 2), Ands Tt = 0.9 (Penalty 1), t = 0,75 (Penalty 2), Anté -ttys. Classificando e pode ser descrito por, por exemplo, ‘Faça o seu melhor palpite, mesmo que não tivesse certeza, como se estivesse fazendo um exame’.

Para os usuários, o take -away é direto: quando você tem a opção, ligue as configurações que incentivam recusas ou incerteza. Alguns sistemas já permitem ajustar a “temperatura” (controlando a criatividade) ou ativam modos de “factualidade estrita”. Quanto mais perto chegarmos de modelos sendo treinados sob essas regras, mais você verá a IA parar com confiança, em vez de mentir com confiança.

Outras correções

Até o treinamento alcançar, o ônus geralmente cai nos usuários. Aqui estão cinco maneiras de domar alucinações agora:

1. Peça fontes todas as vezes. Não pegue a palavra de um modelo pelo valor nominal – citações ou links de demanda. Se não puder fornecê -los, ou eles não conferirem, assuma a resposta instável. Pense nisso como a Wikipedia: útil, mas apenas se você seguir as notas de rodapé.

2. Enquadre suas perguntas com força. Os modelos vagam quando os avisos são vagos. Se você precisar de fatos, especifique o escopo (“Liste três estudos revisados por pares publicados após 2020 em X”) em vez de pedir abertura aberta (“Conte-me sobre X”). Os corrimãos em sua pergunta se traduzem em guardrails na resposta.

3. Verifique com outro sistema. Execute a mesma pergunta por meio de um modelo ou mecanismo de pesquisa diferente. Se três ferramentas concordarem, você é mais seguro. Se alguém cospe um outlier, provavelmente é uma alucinação.

4. Observe o excesso de confiança. O sinal revelador de uma alucinação não é hedge – é arrogância. Se uma resposta for muito polida, com detalhes fabricados e incerteza zero, verifique-o duas vezes. Um modelo que parece mais certo do que o contador de impostos provavelmente está blefando.

5. Confie, mas verifique. Não corte e colar o modelo de saída diretamente em código, contratos ou notas médicas. Trate -o como um rascunho ou ponto de partida, não o evangelho. Os usuários mais seguros são os céticos – aqueles que nunca esquecem o primeiro trabalho do modelo são fluência, não a verdade.

Geralmente inteligente Boletim informativo

Uma jornada semanal de IA narrada por Gen, um modelo generativo de IA.

Fontedecrypt

Leia Também:

A FOMC Week pode empurrar o ouro para os máximos de todos os tempos? Etf de Sei Aprovado? O Movimento da 21Shares Pode Mudar Tudo Shiba Inu – Mapeando a próxima jogada de Shib após a rejeição em US $ 0,000014

Navegação de Post

“Uma Vez a Cada 100 Anos”, Pequeno Minerador Ganha R $ 1,9 Milhão em Bitcoin
Grupo de leão listado na Nasdaq para converter Sol, Sui Holdings em hype

Por que a IA continua inventando as coisas – e como consertar

ByJosh Quittner

Em resumo

Uma solução mais simples

Outras correções

Geralmente inteligente Boletim informativo

By Josh Quittner

Leia Também

Jjuri no julgamento do bot MEV tem dificuldades para chegar a um veredito.

Todos os 12 ETFs de Bitcoin apresentam saídas totalizando US$ 558 milhões, Solana estende sequência de entradas até o nono dia

Stablecoin Shake-Up: Queda de US$ 1,9 bilhão atinge o mercado quando XUSD e USDX quebram o Peg

Deixe um comentário Cancelar resposta

Leia Também:

Jjuri no julgamento do bot MEV tem dificuldades para chegar a um veredito.

Todos os 12 ETFs de Bitcoin apresentam saídas totalizando US$ 558 milhões, Solana estende sequência de entradas até o nono dia

Stablecoin Shake-Up: Queda de US$ 1,9 bilhão atinge o mercado quando XUSD e USDX quebram o Peg

Preço dos comerciantes em dezembro Corte da taxa do Fed à medida que a inflação dos EUA diminui novamente