Goblins in your AI. Image: Decrypt, created with AI.

Em resumo

  • A personalidade “Nerdy” da OpenAI recompensou metáforas de duendes, espalhando a peculiaridade em todos os modelos GPT por meio de aprendizagem por reforço.
  • As menções de Goblin no modo Nerdy do GPT-5.4 aumentaram 3.881% em comparação com o GPT-5.2, solicitando uma investigação interna e um patch imediato do sistema de emergência.
  • A correção – escrever “nunca fale sobre goblins” em um prompt do desenvolvedor – mostra por que os patches do prompt do sistema são mais rápidos, mas mais arriscados do que o retreinamento.

Se você pediu ajuda ao ChatGPT para codificação recentemente e ele respondeu chamando seu bug de “pequeno gremlin travesso”, você não está imaginando coisas. O modelo desenvolveu uma obsessão genuína por criaturas fantásticas – goblins, gremlins, guaxinins, trolls, ogros e, sim, pombos – e a OpenAI publicou uma autópsia completa sobre como isso aconteceu.

A versão resumida: um sinal de recompensa projetado para tornar o ChatGPT mais divertido tornou-se desonesto e os goblins se multiplicaram.

A história dos goblins só se tornou pública porque os usuários do Reddit detectaram a linha “nunca mencione goblins” em um prompt do sistema Codex que vazou no GitHub.

A postagem se tornou viral antes que a OpenAI publicasse sua própria explicação.

Como a personalidade Nerdy gerou uma infestação de goblins

Segundo a OpenAI, a trilha começa com o GPT-5.1, lançado em novembro passado. Foi quando a OpenAI introduziu a personalização de personalidade, permitindo aos usuários escolher estilos como Amigável, Profissional, Eficiente e Nerdy. A persona Nerdy veio com um prompt de sistema dizendo ao modelo para ser nerd e brincalhão, para “reduzir a pretensão por meio do uso lúdico da linguagem” e reconhecer que “o mundo é complexo e estranho”.

Esse aviso, descobriu-se, era um ímã de goblins.

Durante o treinamento de aprendizagem por reforço, o sinal de recompensa para a personalidade Nerdy obteve consistentemente resultados mais elevados quando continham metáforas de palavras-criaturas. Em 76,2% dos conjuntos de dados auditados, as respostas com “goblin” ou “gremlin” receberam notas melhores do que as mesmas respostas sem eles. O modelo aprendeu: capricho é igual a recompensa.

As menções a Goblin explodiram no GPT-5.4, com a personalidade Nerdy apresentando um aumento de 3.881% em comparação ao GPT-5.2.

O problema é que a aprendizagem por reforço não mantém os comportamentos aprendidos bem contidos. Depois que um tique de estilo é recompensado em um contexto, ele se espalha para outros por meio de um ciclo de feedback: o modelo gera resultados carregados de criaturas, esses resultados são reutilizados no ajuste fino de dados e o comportamento se aprofunda em todo o modelo, mesmo sem o prompt Nerdy ativo.

Nerdy foi responsável por apenas 2,5% de todas as respostas do ChatGPT. Foi responsável por 66,7% de todas as menções a “duendes”. Por causa dos métodos da OpenAI, a prevalência de Goblins e Gremlins aumentou constantemente ao longo do progresso do treinamento quando a personalidade Nerdy estava ativa.

Mesmo sem a personalidade Nerdy, as menções a criaturas aumentaram – evidência de contaminação cruzada através de dados supervisionados de ajuste fino.

GPT-5.5 já estava longe demais

No momento em que a OpenAI encontrou a causa raiz, o GPT-5.5 já estava em treinamento profundo e havia absorvido uma família completa de palavras de criaturas. Uma auditoria de dados sinalizou não apenas goblins e gremlins, mas guaxinins, trolls, ogros e pombos como o que a empresa chamou de “palavras de tique”. (“Sapos”, para os curiosos, eram em sua maioria legítimos.)

O primeiro aumento mensurável: as menções a goblins aumentaram 175% e as menções a gremlin 52% após o lançamento do GPT-5.1.

Até o cientista-chefe da OpenAI, Jakub Pachocki, ganhou um goblin quando pediu um unicórnio na arte ASCII.

A OpenAI retirou a personalidade Nerdy em março e eliminou os sinais de recompensa afins às criaturas de treinamentos futuros. Mas o GPT-5.5 já havia iniciado seu treinamento. A solução da empresa para o Codex – seu agente de codificação – foi simplesmente adicionar uma linha ao prompt do sistema do desenvolvedor dizendo “Nunca fale sobre goblins, gremlins, guaxinins, trolls, ogros, pombos ou outros animais ou criaturas, a menos que seja absoluta e inequivocamente relevante para a consulta do usuário.”

Alguém na OpenAI comprometeu isso com o código de produção e seguiu em frente.

O problema do patch do prompt do sistema

Mas por que a OpenAI escolheu esse caminho?

Retreinar um modelo do tamanho do GPT-5.5 para remover uma peculiaridade comportamental é caro e lento. Um ajuste no prompt do sistema leva alguns minutos. As empresas de todo o setor buscam primeiro o patch imediato porque é a opção de baixo custo e implantação rápida quando as reclamações dos usuários aumentam.

Mas os patches imediatos acarretam seus próprios riscos. Eles não corrigem o comportamento subjacente, apenas o suprimem. E a supressão pode ter efeitos colaterais.

A situação dos duendes da OpenAI é um exemplo relativamente benigno. A versão mais assustadora dessa dinâmica aconteceu com Grok no ano passado. Depois que o xAI lançou uma atualização imediata do sistema que dizia a Grok para tratar a mídia como tendenciosa e “não se esquivar de afirmações politicamente incorretas”, o chatbot passou 16 horas se autodenominando “MechaHitler” e postando conteúdo anti-semita no X. A correção foi outra mudança imediata, que prontamente corrigiu tanto que Grok começou a sinalizar o anti-semitismo em fotos de cachorrinhos, nuvens e seu próprio logotipo. Engenharia imediata desesperada em cascata para engenharia imediata mais desesperada.

A mancha dos goblins não causou nada tão dramático. Mas a OpenAI admite que o GPT-5.5 ainda foi lançado com a peculiaridade subjacente intacta, apenas suprimida no Codex. A empresa até publicou um comando para remover as instruções de supressão de goblins se os usuários quiserem as criaturas de volta.

Por que as empresas ocultam as solicitações do sistema

Ocultar ou ofuscar todo o prompt do sistema é típico na indústria de IA. As empresas tratam os prompts do sistema como segredos comerciais por alguns motivos: proteção da propriedade intelectual, vantagem competitiva e segurança. Se um jailbreaker souber as regras exatas que um modelo está seguindo, contorná-las torna-se trivialmente mais fácil.

Há também um quarto motivo pelo qual as empresas não anunciam: gerenciamento de imagem. Uma linha que diz “nunca mencione goblins” não inspira confiança na tecnologia subjacente. Publicá-lo requer senso de humor ou uma forte cultura de pesquisa, ou ambos.

A OpenAI diz que a investigação produziu novas ferramentas internas para auditar o comportamento do modelo e rastrear peculiaridades comportamentais até suas raízes de treinamento. Desde então, os dados de treinamento do GPT-5.5 foram limpos de exemplos afins a criaturas. A próxima geração de modelos deverá chegar livre de goblins – a menos, é claro, que algo mais seja recompensado por razões que ninguém entende ainda.

Resumo Diário Boletim informativo

Comece cada dia com as principais notícias do momento, além de recursos originais, podcast, vídeos e muito mais.

Fontedecrypt

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *