A Anthropic detalhou sua estratégia de segurança para tentar manter seu modelo popular de IA, Claude, útil, evitando a perpetuação de danos.
Central para esse esforço é a equipe de salvaguardas da Antrópica; Quem não é o seu grupo de suporte técnico médio, é uma mistura de especialistas em políticas, cientistas de dados, engenheiros e analistas de ameaças que sabem o quão maus atores pensam.
No entanto, a abordagem da segurança do Anthropic não é uma única parede, mas mais como um castelo com várias camadas de defesa. Tudo começa com a criação das regras certas e termina com a caça novas ameaças na natureza.
Primeiro, é a política de uso, que é basicamente o livro de regras de como Claude deve e não deve ser usado. Ele fornece orientações claras sobre grandes questões como integridade eleitoral e segurança infantil, e também o uso de Claude com responsabilidade em áreas sensíveis, como finanças ou saúde.
Para moldar essas regras, a equipe usa uma estrutura de danos unificados. Isso os ajuda a pensar em possíveis impactos negativos, do dano físico e psicológico ao dano econômico e social. É menos um sistema formal de classificação e mais uma maneira estruturada de pesar os riscos ao tomar decisões. Eles também trazem especialistas externos para testes de vulnerabilidade de políticas. Esses especialistas em áreas como terrorismo e segurança infantil tentam “quebrar” Claude com perguntas difíceis para ver onde estão as fraquezas.
Vimos isso em ação durante as eleições de 2024 nos EUA. Depois de trabalhar com o Instituto de Diálogo Estratégico, Claude antrópica percebeu fornecer informações antigas de votação. Então, eles adicionaram um banner que apontou os usuários ao TurboVote, uma fonte confiável para informações eleitorais atualizadas e não partidárias.
Ensinando Claude diretamente do errado
A equipe de salvaguardas antrópicas trabalha em estreita colaboração com os desenvolvedores que treinam Claude para construir a segurança desde o início. Isso significa decidir que tipos de coisas Claude deveriam e não fazer, e incorporar esses valores ao próprio modelo.
Eles também se juntam a especialistas para acertar isso. Por exemplo, ao fazer parceria com a Linente, um líder de apoio à crise, eles ensinaram Claude a lidar com conversas confidenciais sobre saúde mental e auto-agressão com cuidado, em vez de apenas se recusar a falar. Este treinamento cuidadoso é o motivo pelo qual Claude recusará solicitações para ajudar com atividades ilegais, escrever código malicioso ou criar golpes.
Antes que qualquer nova versão do Claude seja lançada, ela é colocada em seus ritmos com três tipos principais de avaliação.
- Avaliações de segurança: Esses testes verificam se Claude segue as regras, mesmo em conversas complicadas e longas.
- Avaliações de risco: Para áreas de alto risco, como ameaças cibernéticas ou riscos biológicos, a equipe faz testes especializados, geralmente com a ajuda de parceiros do governo e do setor.
- Avaliações de viés: Isso é tudo sobre justiça. Eles verificam se Claude oferece respostas confiáveis e precisas para todos, testando viés político ou respostas distorcidas com base em coisas como gênero ou raça.
Esse teste intenso ajuda a equipe a ver se o treinamento ficou preso e diz a eles se eles precisam criar proteções extras antes do lançamento.
Estratégia de segurança de IA sem sono da Antrópica
Quando Claude está no mundo, uma mistura de sistemas automatizados e revisores humanos fica de olho em busca de problemas. A principal ferramenta aqui é um conjunto de modelos de Claude especializados chamados “classificadores” que são treinados para identificar violações de políticas específicas em tempo real à medida que acontecem.
Se um classificador colocar um problema, ele pode desencadear ações diferentes. Pode afastar a resposta de Claude de gerar algo prejudicial, como spam. Para criminosos repetidos, a equipe pode emitir avisos ou até fechar a conta.
A equipe também olha para o quadro geral. Eles usam ferramentas amigas para identificar tendências de como Claude está sendo usado e empregar técnicas como a resumo hierárquico para identificar o uso indevido em larga escala, como campanhas de influência coordenadas. Eles estão constantemente caçando novas ameaças, cavando dados e monitorando os fóruns onde os maus atores podem sair.
No entanto, o Antrópico diz que sabe que garantir a segurança da IA não é um trabalho que eles possam fazer sozinho. Eles estão trabalhando ativamente com pesquisadores, formuladores de políticas e o público para construir as melhores salvaguardas possíveis.
(Imagem de chumbo por Nick Fewings)
Veja também: Suvianna Grecu, AI para a mudança: sem regras, a IA arrisca a ‘crise de confiança’
Deseja aprender mais sobre IA e Big Data dos líderes do setor? Confira a AI & Big Data Expo em Amsterdã, Califórnia e Londres. O evento abrangente é co-localizado com outros eventos líderes, incluindo a Conferência de Automação Inteligente, Blockx, Digital Transformation Week e Cyber Security & Cloud Expo.
Explore outros próximos eventos de tecnologia corporativa e webinars alimentados pela TechForge aqui.
Fontesartificialintelligence