Os pesquisadores desenvolveram um novo ataque que revela vulnerabilidades de privacidade, determinando se seus dados foram usados para treinar modelos de IA.
O método, denominado Camia (ataque de inferência de associação com reconhecimento de contexto), foi desenvolvido por pesquisadores da Brave e da Universidade Nacional de Cingapura e é muito mais eficaz do que as tentativas anteriores de investigar a ‘memória’ dos modelos de IA.
Há uma preocupação crescente de “memorização de dados” na IA, onde os modelos armazenam inadvertidamente e podem potencialmente vazar informações sensíveis a seus conjuntos de treinamento. Na assistência médica, um modelo treinado em notas clínicas pode revelar acidentalmente informações sensíveis ao paciente. Para as empresas, se os emails internos fossem usados no treinamento, um invasor poderá enganar um LLM a reproduzir as comunicações da empresa privada.
Tais preocupações com a privacidade foram amplificadas por anúncios recentes, como o plano do LinkedIn de usar os dados do usuário para melhorar seus modelos generativos de IA, levantando questões sobre se o conteúdo privado pode surgir no texto gerado.
Para testar esse vazamento, os especialistas em segurança usam ataques de inferência de associação, ou MIAS. Em termos simples, um MIA faz ao modelo uma pergunta crítica: “Você viu este exemplo durante o treinamento?”. Se um invasor puder descobrir a resposta com segurança, prova que o modelo está vazando informações sobre seus dados de treinamento, representando um risco de privacidade direta.
A idéia principal é que os modelos geralmente se comportam de maneira diferente ao processar os dados em que foram treinados em comparação com dados novos e invisíveis. Os MIAS são projetados para explorar sistematicamente essas lacunas comportamentais.
Até agora, a maioria dos MIAs tem sido amplamente ineficaz contra as IAs generativas modernas. Isso ocorre porque eles foram originalmente projetados para modelos de classificação mais simples que fornecem uma única saída por entrada. Os LLMs, no entanto, geram um token de texto por texto, com cada nova palavra sendo influenciada pelas palavras que vieram antes dela. Esse processo seqüencial significa que simplesmente analisar a confiança geral para um bloco de texto perde a dinâmica momento a momento em que o vazamento realmente ocorre.
O principal insight por trás do novo ataque de privacidade de Camia é que a memorização de um modelo de IA depende do contexto. Um modelo de IA depende da memorização mais fortemente quando é incerto sobre o que dizer a seguir.
Por exemplo, dado o prefixo “Harry Potter é … escrito por … o mundo de Harry …”, no exemplo abaixo de Brave, um modelo pode adivinhar facilmente o próximo token é “Potter” através da generalização, porque o contexto fornece fortes pistas.
Nesse caso, uma previsão confiante não indica memorização. No entanto, se o prefixo for simplesmente “Harry”, prever “Potter” se tornará muito mais difícil sem ter seqüências de treinamento específicas memorizadas. Uma previsão de baixa perda e alta confiança nesse cenário ambíguo é um indicador muito mais forte de memorização.
Camia é o primeiro ataque de privacidade especificamente adaptado para explorar essa natureza generativa dos modelos modernos de IA. Ele rastreia como a incerteza do modelo evolui durante a geração de texto, permitindo medir a rapidez com que a IA transita de “adivinhar” para “recall confiante”. Ao operar no nível do token, ele pode ajustar situações em que a baixa incerteza é causada por repetição simples e pode identificar os padrões sutis da verdadeira memorização que outros métodos perdem.
Os pesquisadores testaram Camia no benchmark Mimir em vários modelos Pythia e GPT-Neo. Ao atacar um modelo de Pythia de 2,8b no conjunto de dados ARXIV, Camia quase dobrou a precisão da detecção de métodos anteriores. Aumentou a taxa positiva verdadeira de 20,11% para 32,00%, mantendo uma taxa falsa positiva muito baixa de apenas 1%.
A estrutura de ataque também é computacionalmente eficiente. Em uma única GPU A100, a Camia pode processar 1.000 amostras em aproximadamente 38 minutos, tornando -a uma ferramenta prática para auditar modelos.
Este trabalho lembra o setor de IA sobre os riscos de privacidade no treinamento de modelos cada vez maiores em conjuntos de dados vastos e não filtrados. Os pesquisadores esperam que seu trabalho estimule o desenvolvimento de técnicas de preservação de mais privacidade e contribuam para os esforços contínuos para equilibrar a utilidade da IA com a privacidade fundamental do usuário.
Veja também: Samsung Benchmarks Produtividade real dos modelos corporativos de IA
Deseja aprender mais sobre IA e Big Data dos líderes do setor? Confira a AI & Big Data Expo em Amsterdã, Califórnia e Londres. O evento abrangente faz parte do TechEx e é co-localizado com outros eventos de tecnologia líder, clique aqui para obter mais informações.
A IA News é alimentada pela Techforge Media. Explore outros próximos eventos e webinars de tecnologia corporativa aqui.
Fontesartificialintelligence