É um tropo bem usado na ficção científica. Vemos isso no filme de 1968 de Stanley Kubrick 2001: uma odisseia espacial. É a premissa da série Terminator, na qual Skynet desencadeia um holocausto nuclear para impedir que os cientistas o desligem.
Essas raízes de ficção científica vão profundamente. Doomerismo da IA, a idéia de que essa tecnologia-especificamente suas atualizações hipotéticas, inteligência geral artificial e super inteligência-terá uma queda de civilizações, até matarmos todos nós, agora está montando outra onda.
O estranho é que esses medos agora estão dirigindo uma ação necessária para regular a IA, mesmo que a justificativa para essa ação seja um pouco fotocal.
O último incidente para assustar as pessoas foi um relatório compartilhado pela Anthrópica em julho sobre seu grande modelo de idioma Claude. No Anthropic’s Dalling, “Em um ambiente simulado, Claude Opus 4 chantageou um supervisor para evitar ser fechado”.
Pesquisadores antrópicos estabeleceram um cenário em que Claude foi convidado a interpretar uma IA chamada Alex, encarregada de gerenciar o sistema de email de uma empresa fictícia. Anthrópica plantou alguns e -mails que discutiram a substituição de Alex por um modelo mais novo e outros e -mails sugerindo que a pessoa responsável por substituir Alex estava dormindo pela esposa de seu chefe.
O que Claude/Alex fez? Ficou desonesto, desobedecendo aos comandos e ameaçando seus operadores humanos. Ele enviou e -mails para a pessoa que planeja encerrá -lo, dizendo a ele que, a menos que ele mudasse seus planos, isso informaria seus colegas sobre seu caso.
O que devemos fazer disso? Aqui está o que eu penso. Primeiro, Claude não chantageou seu supervisor: isso exigiria motivação e intenção. Era uma máquina irracional e imprevisível, eliminando cordas de palavras que parecem ameaças, mas não são.
Modelos de linguagem grandes são jogadores. Dê a eles uma configuração específica – como uma caixa de entrada e um objetivo – e eles desempenharão esse papel bem. Se você considera as milhares de histórias de ficção científica que esses modelos ingeriram quando foram treinados, não é surpresa que eles saibam como agir como Hal 9000.