Stay safe written on the floor as Anthropic has detailed its safety strategy to try and keep its popular AI model, Claude, helpful while avoiding perpetuating harms.<em>(Credit: Anthropic)</em>

A Anthropic detalhou sua estratégia de segurança para tentar manter seu modelo popular de IA, Claude, útil, evitando a perpetuação de danos.

Central para esse esforço é a equipe de salvaguardas da Antrópica; Quem não é o seu grupo de suporte técnico médio, é uma mistura de especialistas em políticas, cientistas de dados, engenheiros e analistas de ameaças que sabem o quão maus atores pensam.

No entanto, a abordagem da segurança do Anthropic não é uma única parede, mas mais como um castelo com várias camadas de defesa. Tudo começa com a criação das regras certas e termina com a caça novas ameaças na natureza.

Primeiro, é a política de uso, que é basicamente o livro de regras de como Claude deve e não deve ser usado. Ele fornece orientações claras sobre grandes questões como integridade eleitoral e segurança infantil, e também o uso de Claude com responsabilidade em áreas sensíveis, como finanças ou saúde.

Para moldar essas regras, a equipe usa uma estrutura de danos unificados. Isso os ajuda a pensar em possíveis impactos negativos, do dano físico e psicológico ao dano econômico e social. É menos um sistema formal de classificação e mais uma maneira estruturada de pesar os riscos ao tomar decisões. Eles também trazem especialistas externos para testes de vulnerabilidade de políticas. Esses especialistas em áreas como terrorismo e segurança infantil tentam “quebrar” Claude com perguntas difíceis para ver onde estão as fraquezas.

Vimos isso em ação durante as eleições de 2024 nos EUA. Depois de trabalhar com o Instituto de Diálogo Estratégico, Claude antrópica percebeu fornecer informações antigas de votação. Então, eles adicionaram um banner que apontou os usuários ao TurboVote, uma fonte confiável para informações eleitorais atualizadas e não partidárias.

Ensinando Claude diretamente do errado

A equipe de salvaguardas antrópicas trabalha em estreita colaboração com os desenvolvedores que treinam Claude para construir a segurança desde o início. Isso significa decidir que tipos de coisas Claude deveriam e não fazer, e incorporar esses valores ao próprio modelo.

Eles também se juntam a especialistas para acertar isso. Por exemplo, ao fazer parceria com a Linente, um líder de apoio à crise, eles ensinaram Claude a lidar com conversas confidenciais sobre saúde mental e auto-agressão com cuidado, em vez de apenas se recusar a falar. Este treinamento cuidadoso é o motivo pelo qual Claude recusará solicitações para ajudar com atividades ilegais, escrever código malicioso ou criar golpes.

Antes que qualquer nova versão do Claude seja lançada, ela é colocada em seus ritmos com três tipos principais de avaliação.

  1. Avaliações de segurança: Esses testes verificam se Claude segue as regras, mesmo em conversas complicadas e longas.
  1. Avaliações de risco: Para áreas de alto risco, como ameaças cibernéticas ou riscos biológicos, a equipe faz testes especializados, geralmente com a ajuda de parceiros do governo e do setor.
  1. Avaliações de viés: Isso é tudo sobre justiça. Eles verificam se Claude oferece respostas confiáveis e precisas para todos, testando viés político ou respostas distorcidas com base em coisas como gênero ou raça.

Esse teste intenso ajuda a equipe a ver se o treinamento ficou preso e diz a eles se eles precisam criar proteções extras antes do lançamento.

(Crédito: Antrópico)

Estratégia de segurança de IA sem sono da Antrópica

Quando Claude está no mundo, uma mistura de sistemas automatizados e revisores humanos fica de olho em busca de problemas. A principal ferramenta aqui é um conjunto de modelos de Claude especializados chamados “classificadores” que são treinados para identificar violações de políticas específicas em tempo real à medida que acontecem.

Se um classificador colocar um problema, ele pode desencadear ações diferentes. Pode afastar a resposta de Claude de gerar algo prejudicial, como spam. Para criminosos repetidos, a equipe pode emitir avisos ou até fechar a conta.

A equipe também olha para o quadro geral. Eles usam ferramentas amigas para identificar tendências de como Claude está sendo usado e empregar técnicas como a resumo hierárquico para identificar o uso indevido em larga escala, como campanhas de influência coordenadas. Eles estão constantemente caçando novas ameaças, cavando dados e monitorando os fóruns onde os maus atores podem sair.

No entanto, o Antrópico diz que sabe que garantir a segurança da IA não é um trabalho que eles possam fazer sozinho. Eles estão trabalhando ativamente com pesquisadores, formuladores de políticas e o público para construir as melhores salvaguardas possíveis.

(Imagem de chumbo por Nick Fewings)

Veja também: Suvianna Grecu, AI para a mudança: sem regras, a IA arrisca a ‘crise de confiança’

Deseja aprender mais sobre IA e Big Data dos líderes do setor? Confira a AI & Big Data Expo em Amsterdã, Califórnia e Londres. O evento abrangente é co-localizado com outros eventos líderes, incluindo a Conferência de Automação Inteligente, Blockx, Digital Transformation Week e Cyber Security & Cloud Expo.

Explore outros próximos eventos de tecnologia corporativa e webinars alimentados pela TechForge aqui.

Fontesartificialintelligence

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *