Em resumo
- Os autores E. Molly Tanzer e Jennifer Gilmore processaram a Salesforce, alegando que ela “pirateou centenas de milhares de livros protegidos por direitos autorais” para desenvolver seus modelos XGen AI.
- O processo afirma que a Salesforce divulgou inicialmente o uso do conjunto de dados “RedPajama-Books” em junho de 2023, e depois excluiu as referências dois meses depois, renomeando os dados de treinamento como simplesmente “disponíveis publicamente”.
- O CEO da Salesforce, Marc Benioff, disse anteriormente que as empresas de IA “roubaram” dados de treinamento e “todos os dados de treinamento foram roubados”, em entrevista à Bloomberg.
Uma nova ação coletiva no tribunal federal de São Francisco acusou a gigante do software Salesforce de construir seus modelos XGen AI em uma biblioteca de livros piratas e, em seguida, apagar referências a essas fontes quando surgirem dúvidas.
Ajuizado na quarta-feira pelos autores E. Molly Tanzer e Jennifer Gilmore, o processo é movido sob a Lei de Direitos Autorais, alegando violação contínua, dizendo que a Salesforce “continua a fazê-lo, continuando a armazenar, copiar, usar e processar os conjuntos de dados contendo cópias dos livros protegidos por direitos autorais dos Requerentes”.
A denúncia diz que a Salesforce.INC “pirateou centenas de milhares de livros protegidos por direitos autorais para desenvolver sua série XGen de grandes modelos de linguagem”, contando com os “notórios conjuntos de dados RedPajama e The Pile” que incluem um corpus de livros conhecido como Books3, uma coleção de mais de 196.000 livros copiados do rastreador privado Bibliotik.
O documento diz que a Salesforce listou inicialmente “RedPajama-Books” entre suas fontes de treinamento quando lançou o XGen em junho de 2023, com um engenheiro da empresa vinculando os usuários do GitHub diretamente a ambos os conjuntos de dados.
Em setembro, porém, a Salesforce supostamente excluiu essas referências de seu site e as substituiu por descrições vagas de “dados em linguagem natural” extraídos de “fontes publicamente disponíveis”.
A Hugging Face, plataforma que hospeda o Books3, removeu o conjunto de dados no mês seguinte, citando reclamações de direitos autorais, diz o processo.
O processo alega que a Salesforce usou The Pile para treinar seus modelos CodeGen em 2022 e depois comercializou a tecnologia por meio de sua plataforma Agentforce AI, incluindo o modelo XGen-Sales lançado em outubro de 2024.
Dois meses depois, a Salesforce supostamente eliminou suas divulgações, excluindo gráficos e referências a “RedPajama-Books” e substituindo-os por linguagem vaga sobre uma “mistura de dados disponíveis publicamente”, antes de afirmar, em dezembro de 2023, que seus modelos usavam um “conjunto de dados legalmente compatível” sem nenhuma menção ao RedPajama.
Ishita Sharma, sócia-gerente da Fathom Legal, disse Descriptografar que os autores devem “provar danos financeiros reais, não apenas que seus livros foram usados para treinamento”, observando como o juiz Vince Chhabria rejeitou recentemente alegações semelhantes contra Meta, decidindo que “simplesmente alegar que ‘nosso trabalho foi usado’ não é suficiente”.
Decisões recentes favoreceram a OpenAI e a Anthropic em casos semelhantes, com os juízes concluindo que os autores não conseguiram provar os danos ao mercado, embora um tenha criticado a Anthropic por manter “uma biblioteca permanente de livros piratas”.
‘Usar conjuntos de dados públicos como RedPajama ou The Pile não apaga automaticamente a violação intencional’, disse Sharma, acrescentando, ‘se eles soubessem ou ignorassem que obras protegidas por direitos autorais foram incluídas, os tribunais ainda poderiam considerar desconsideração imprudente.’
“A menos que a IA consiga reproduzir partes do trabalho original, os próprios pesos do modelo não são considerados violação de direitos autorais”, acrescentou ela.
A reclamação cita declarações do CEO da Salesforce, Marc Benioff, que disse a um Bloomberg entrevistador em janeiro de 2024 que as empresas de IA “roubaram” dados de treinamento e que “todos os dados de treinamento foram roubados”.
Os autores buscam certificação de classe para todos os detentores de direitos autorais dos EUA cujas obras foram usadas desde outubro de 2022, exigindo danos legais, destruição de cópias infratoras, restituição de lucros, declaração de violação intencional e honorários advocatícios.
Geralmente inteligente Boletim informativo
Uma jornada semanal de IA narrada por Gen, um modelo generativo de IA.
Fontedecrypt