Antrópico detalha sua estratégia de segurança de IA

A Anthropic detalhou sua estratégia de segurança para tentar manter seu modelo popular de IA, Claude, útil, evitando a perpetuação de danos.

Central para esse esforço é a equipe de salvaguardas da Antrópica; Quem não é o seu grupo de suporte técnico médio, é uma mistura de especialistas em políticas, cientistas de dados, engenheiros e analistas de ameaças que sabem o quão maus atores pensam.

No entanto, a abordagem da segurança do Anthropic não é uma única parede, mas mais como um castelo com várias camadas de defesa. Tudo começa com a criação das regras certas e termina com a caça novas ameaças na natureza.

Primeiro, é a política de uso, que é basicamente o livro de regras de como Claude deve e não deve ser usado. Ele fornece orientações claras sobre grandes questões como integridade eleitoral e segurança infantil, e também o uso de Claude com responsabilidade em áreas sensíveis, como finanças ou saúde.

Para moldar essas regras, a equipe usa uma estrutura de danos unificados. Isso os ajuda a pensar em possíveis impactos negativos, do dano físico e psicológico ao dano econômico e social. É menos um sistema formal de classificação e mais uma maneira estruturada de pesar os riscos ao tomar decisões. Eles também trazem especialistas externos para testes de vulnerabilidade de políticas. Esses especialistas em áreas como terrorismo e segurança infantil tentam “quebrar” Claude com perguntas difíceis para ver onde estão as fraquezas.

Vimos isso em ação durante as eleições de 2024 nos EUA. Depois de trabalhar com o Instituto de Diálogo Estratégico, Claude antrópica percebeu fornecer informações antigas de votação. Então, eles adicionaram um banner que apontou os usuários ao TurboVote, uma fonte confiável para informações eleitorais atualizadas e não partidárias.

Ensinando Claude diretamente do errado

A equipe de salvaguardas antrópicas trabalha em estreita colaboração com os desenvolvedores que treinam Claude para construir a segurança desde o início. Isso significa decidir que tipos de coisas Claude deveriam e não fazer, e incorporar esses valores ao próprio modelo.

Eles também se juntam a especialistas para acertar isso. Por exemplo, ao fazer parceria com a Linente, um líder de apoio à crise, eles ensinaram Claude a lidar com conversas confidenciais sobre saúde mental e auto-agressão com cuidado, em vez de apenas se recusar a falar. Este treinamento cuidadoso é o motivo pelo qual Claude recusará solicitações para ajudar com atividades ilegais, escrever código malicioso ou criar golpes.

Antes que qualquer nova versão do Claude seja lançada, ela é colocada em seus ritmos com três tipos principais de avaliação.

Avaliações de segurança: Esses testes verificam se Claude segue as regras, mesmo em conversas complicadas e longas.

Avaliações de risco: Para áreas de alto risco, como ameaças cibernéticas ou riscos biológicos, a equipe faz testes especializados, geralmente com a ajuda de parceiros do governo e do setor.

Avaliações de viés: Isso é tudo sobre justiça. Eles verificam se Claude oferece respostas confiáveis e precisas para todos, testando viés político ou respostas distorcidas com base em coisas como gênero ou raça.

Esse teste intenso ajuda a equipe a ver se o treinamento ficou preso e diz a eles se eles precisam criar proteções extras antes do lançamento.

(Crédito: Antrópico)

Estratégia de segurança de IA sem sono da Antrópica

Quando Claude está no mundo, uma mistura de sistemas automatizados e revisores humanos fica de olho em busca de problemas. A principal ferramenta aqui é um conjunto de modelos de Claude especializados chamados “classificadores” que são treinados para identificar violações de políticas específicas em tempo real à medida que acontecem.

Se um classificador colocar um problema, ele pode desencadear ações diferentes. Pode afastar a resposta de Claude de gerar algo prejudicial, como spam. Para criminosos repetidos, a equipe pode emitir avisos ou até fechar a conta.

A equipe também olha para o quadro geral. Eles usam ferramentas amigas para identificar tendências de como Claude está sendo usado e empregar técnicas como a resumo hierárquico para identificar o uso indevido em larga escala, como campanhas de influência coordenadas. Eles estão constantemente caçando novas ameaças, cavando dados e monitorando os fóruns onde os maus atores podem sair.

No entanto, o Antrópico diz que sabe que garantir a segurança da IA não é um trabalho que eles possam fazer sozinho. Eles estão trabalhando ativamente com pesquisadores, formuladores de políticas e o público para construir as melhores salvaguardas possíveis.

(Imagem de chumbo por Nick Fewings)

Veja também: Suvianna Grecu, AI para a mudança: sem regras, a IA arrisca a ‘crise de confiança’

Deseja aprender mais sobre IA e Big Data dos líderes do setor? Confira a AI & Big Data Expo em Amsterdã, Califórnia e Londres. O evento abrangente é co-localizado com outros eventos líderes, incluindo a Conferência de Automação Inteligente, Blockx, Digital Transformation Week e Cyber Security & Cloud Expo.

Explore outros próximos eventos de tecnologia corporativa e webinars alimentados pela TechForge aqui.

Fontesartificialintelligence

Antrópico detalha sua estratégia de segurança de IA

ByRyan Daws

Ensinando Claude diretamente do errado

Estratégia de segurança de IA sem sono da Antrópica

Você Pode Gostar

Ethereum vượt 4.000 USD với đà tăng mạnh – vì sao $ melhor có thể là ngôi sao bứt phá tiếp theo

Deepseek: a startup chinesa que desafia o Vale do Silício

Bitcoin supera os US $ 2,4 trilhões do google e investidos Esperam Novas Máxias Histórica APÓs US $ 124 mil

Deixe um comentário Cancelar resposta

Leia Também:

Ethereum vượt 4.000 USD với đà tăng mạnh – vì sao $ melhor có thể là ngôi sao bứt phá tiếp theo

Deepseek: a startup chinesa que desafia o Vale do Silício

Bitcoin supera os US $ 2,4 trilhões do google e investidos Esperam Novas Máxias Histórica APÓs US $ 124 mil

Hong Kong SFC aperta os padrões de custódia para trocas de cripto