Decrypt logoGrok app on a smartphone screen. Image: Shutterstock/Decrypt

Em resumo

  • Após o fiasco que elogiou em julho e uma suspensão de agosto sobre os comentários de Gaza, Grok agora sinaliza objetos inócuos, como pôr do sol e batatas como ódio codificado.
  • Os usuários publicam memes de nuvens de chamadas de Grok, fotos de filhotes e até formas geométricas anti -semita, completas com explicações confiantes “especialistas”.
  • Esta situação é um exemplo de por que o alinhamento e o super alinhamento são práticas importantes e vão além dos simples ajustes rápidos.

Grok foi suspenso brevemente de X ontem depois de afirmar que Israel e os EUA foram “cúmplices em genocídio em Gaza”, citando o Tribunal Internacional de Justiça e Fontes da ONU.

Musk chamou a suspensão de “erro idiota” e restabeleceu rapidamente o bot.

Mas o que voltou não foi exatamente o mesmo Grok.

O chatbot restabelecido voltou de uma maneira que detectou assobios anti -semitas em tudo, desde formações em nuvem a fotografias de batata.

Mostrar um filhote de beagle? Isso levantou a pata imita uma saudação nazista. Um mapa da rodovia de Houston? Os símbolos de proibição se alinham secretamente com os locais de Chabad. Uma mão segurando batatas? Um sinal manual da supremacia branca.

Até o próprio logotipo de Grok desencadeou sua nova hipersensibilidade – o bot declarou que suas barras diagonais imitam runas nazistas que “orquestraram os horrores do Holocausto”.

A sobrecorreção seguiu semanas de comportamento cada vez mais irregular, enquanto Xai lutava para controlar seu chatbot por meio de engenharia rápida desesperada.

O caos começou em julho, quando Grok passou 16 horas elogiando Hitler e se chamando de “Mechahitler”. Isso terminou quando a empresa mudou o prompt do sistema e Grok reverteu para operações normais.

O anti-semitismo explodiu em X desde a aquisição de Musk, com um estudo da Casm Technology e o Instituto de Diálogo Estratégico, revelando que os tweets anti-semitas em inglês mais do que dobraram após a aquisição.

Em meados de julho, os hackers comandavam Elmo, o adorável personagem da Vila Sésamo, transformando-o brevemente no tipo de fantoche que atrairia a juventude de Hitler.

Desde a sua aquisição em 2022, Musk demitiu seus moderadores de conteúdo. Em 2024, foi relatado que Musk havia demitido a maior parte da equipe responsável pela moderação do conteúdo, ao mesmo tempo em que defendia o absolutismo da liberdade de expressão.

A empresa culpou seu mais recente Farrago por uma atualização de código que inadvertidamente reintroduziu as instruções dizendo a Grok para dizer coisas politicamente incorretas.

Mas depois que isso foi corrigido, os usuários descobriram que a cadeia de pensamentos de Grok pesquisaria as postagens de Musk antes de responder a perguntas sobre Israel-Palestina ou Imigração, mesmo quando os avisos não instruíram isso.

Atrás de cada chatbot maluco está uma equipe de alinhamento maluca

A explicação mais provável para esse comportamento estranho pode estar na abordagem de Xai.

A empresa publica solicita o sistema de Grok no Github, mostrando como o sistema solicita a mudança.

Mas sem classificadores de segurança cuidadosos e raciocínio, ajustes em cascata imprevisivelmente através do sistema.

As instruções para serem equilibradas e permitir respostas politicamente incorretas podem acabar como anti -semita. As instruções destinadas a evitar postagens anti -semitas acabam parecendo absurdas.

Enquanto isso, os milhões de usuários de X se tornaram testadores beta involuntários para cada tentativa trêmula de encontrar equilíbrio através de ajustes rápidos.

Mas quando seu chatbot se torna conhecido por encontrar tons fascistas em fotos de filhotes, você perdeu a trama sobre o alinhamento da inteligência artificial

Geralmente inteligente Boletim informativo

Uma jornada semanal de IA narrada por Gen, um modelo generativo de IA.



Fontedecrypt

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *