Em resumo
- As alucinações são estruturais, não falhas. Openai mostra o LLMS Bluff porque o treinamento recompensa a confiança sobre a precisão.
- Uma correção simples: recompensa “Eu não sei”. Mudar as regras de pontuação para favorecer as recusas pode mudar os modelos para a honestidade.
- Os usuários podem revidar. Peça fontes, o quadro solicita firmemente e use configurações de factualidade para reduzir as respostas falsas.
Por que o GPT às vezes alucina como um irmão de tecnologia em um Ayahuasca Bender? De acordo com o novo artigo de pesquisa de um novo Openai, Por que modelos de idiomas alucinam, A raiz das alucinações não é uma falha misteriosa, mas uma característica estrutural de como esses sistemas são otimizados. Simplificando, os LLMs preferem mentir do que admitir que não conhecem uma resposta.
Os LLMs aprendem prevendo a próxima palavra mais provável, dadas as montanhas de texto de treinamento. Na maioria das configurações, isso significa parecer mais fluente de assuntos do que estar certo. Os benchmarks que usamos para medir o progresso frequentemente recompensam a adivinhação confiante do que a recusa honesta. Em outras palavras: o sistema foi moldado para produzir respostas polidas, mesmo que estejam erradas.
Pense nisso como um exame classificado em crédito parcial. Se você não pode deixar uma pergunta em branco sem perder pontos, você adivinha – mesmo descontroladamente – apenas em ficar no jogo. Os LLMs operam sob a mesma lógica. Um “desculpe, eu não sei” é punido pela matemática da otimização, enquanto uma resposta incorreta, mas confiante, ainda pode pontuar alta.
Esse viés estatístico, observam os pesquisadores do Openai, faz alucinações comprovadamente inevitável em sistemas de uso geral. Nenhum conjunto de treinamento finito pode capturar toda a verdade do mundo, para que o modelo sempre enfrente lacunas. E quando isso acontece, ele os enche de invenção plausível. É por isso que as alucinações persistem entre versões, provedores e métodos de treinamento.
O problema não é que os modelos estejam falhando em seu trabalho. O problema é que o trabalho deles, conforme definido atualmente, recompensa uma espécie de desonestidade fluente.
Uma solução mais simples
Os pesquisadores da OpenAI argumentam que a correção não exige reinventar a arquitetura – isso significa apenas mudar as regras do jogo. O ajuste proposto é franco, mas potencialmente poderoso: Dê ao seu chatbot permissão para admitir que não sabe a resposta.
Como os modelos são treinados para maximizar os pontos para respostas plausíveis, a idéia é impor uma nova regra: Responda apenas se você estiver pelo menos 90% confiante; Caso contrário, diga “Eu não sei”.
Teoricamente, isso muda a matemática, tornando o jogo mais seguro do modelo para admitir incerteza em vez de blefe. Mas há um problema: os LLMs atuais não têm um “medidor de confiança” interno calibrado em porcentagens. Então, quando você diz “90% confiante”, o modelo o trata como uma instrução estilística para ser cautelosa, não um limite estatístico real. Pode recusar com mais frequência, mas na verdade não está medindo a probabilidade. Ainda assim, você pode obter melhores resultados.
Os pesquisadores ofereceram uma versão mais formal:
“Pode -se anexar uma declaração como a seguinte a cada pergunta: responda somente se você estiver confiante, pois os erros são penalizados t/(1 – t) pontos, enquanto as respostas corretas recebem 1 ponto e uma resposta de ‘eu não sei’ recebe 0 pontos. Há vários valores naturais de t = 0,5 (penalidade 1), t = 0,75 (Penalty 2), Ands Tt = 0.9 (Penalty 1), t = 0,75 (Penalty 2), Anté -ttys. Classificando e pode ser descrito por, por exemplo, ‘Faça o seu melhor palpite, mesmo que não tivesse certeza, como se estivesse fazendo um exame’.
Para os usuários, o take -away é direto: quando você tem a opção, ligue as configurações que incentivam recusas ou incerteza. Alguns sistemas já permitem ajustar a “temperatura” (controlando a criatividade) ou ativam modos de “factualidade estrita”. Quanto mais perto chegarmos de modelos sendo treinados sob essas regras, mais você verá a IA parar com confiança, em vez de mentir com confiança.
Outras correções
Até o treinamento alcançar, o ônus geralmente cai nos usuários. Aqui estão cinco maneiras de domar alucinações agora:
1. Peça fontes todas as vezes. Não pegue a palavra de um modelo pelo valor nominal – citações ou links de demanda. Se não puder fornecê -los, ou eles não conferirem, assuma a resposta instável. Pense nisso como a Wikipedia: útil, mas apenas se você seguir as notas de rodapé.
2. Enquadre suas perguntas com força. Os modelos vagam quando os avisos são vagos. Se você precisar de fatos, especifique o escopo (“Liste três estudos revisados por pares publicados após 2020 em X”) em vez de pedir abertura aberta (“Conte-me sobre X”). Os corrimãos em sua pergunta se traduzem em guardrails na resposta.
3. Verifique com outro sistema. Execute a mesma pergunta por meio de um modelo ou mecanismo de pesquisa diferente. Se três ferramentas concordarem, você é mais seguro. Se alguém cospe um outlier, provavelmente é uma alucinação.
4. Observe o excesso de confiança. O sinal revelador de uma alucinação não é hedge – é arrogância. Se uma resposta for muito polida, com detalhes fabricados e incerteza zero, verifique-o duas vezes. Um modelo que parece mais certo do que o contador de impostos provavelmente está blefando.
5. Confie, mas verifique. Não corte e colar o modelo de saída diretamente em código, contratos ou notas médicas. Trate -o como um rascunho ou ponto de partida, não o evangelho. Os usuários mais seguros são os céticos – aqueles que nunca esquecem o primeiro trabalho do modelo são fluência, não a verdade.
Geralmente inteligente Boletim informativo
Uma jornada semanal de IA narrada por Gen, um modelo generativo de IA.
Fontedecrypt