Em resumo
- O Hachette Book Group e o Cengage Group pediram na quinta-feira a um tribunal federal da Califórnia que interviesse em uma ação coletiva acusando o Google de violação de direitos autorais no treinamento de IA.
- Os editores alegam que o Google baixou seus livros de sites piratas, incluindo Z-Library e OceanofPDF, e depois os copiou repetidamente enquanto treinava seus modelos.
- O conjunto de dados de treinamento C4 do Google supostamente extrai de pelo menos 28 sites vinculados à pirataria, com o símbolo de copyright aparecendo mais de 200 milhões de vezes.
As principais editoras de livros Hachette Book Group e Cengage Group entraram com uma moção na quinta-feira para intervir em uma ação coletiva existente movida no ano passado contra o Google, acusando a gigante da tecnologia de orquestrar “violação histórica de direitos autorais” para construir sua plataforma Gemini.
A queixa apresentada no tribunal federal da Califórnia alega que o Google “optou por roubar um grande volume de conteúdo dos Requerentes e da Classe para treinar seu modelo de IA” em vez de obter licenças adequadas, envolvendo-se em infrações deliberadas “em todas as fases” do desenvolvimento.
O caso consolidado foi originalmente movido em 2023 por autores individuais como uma proposta de ação coletiva de direitos autorais acusando o Google de copiar livros para treinar seus modelos generativos de IA.
Os editores afirmam que o Google baixou livros de sites piratas e os copiou repetidamente durante o processo de treinamento de IA, primeiro na memória do computador, depois em formatos que os sistemas de IA pudessem ler e novamente em conjuntos de treinamento para cada nova versão do modelo.
O conjunto de dados de treinamento C4 do Google contém trabalhos protegidos por direitos autorais extraídos da Z-Library, uma coleção pirata da qual as autoridades apreenderam mais de 350 sites e domínios da web, alega o processo.
Os editores notaram como os livros foram copiados do b-ok.org, um domínio da Z-Library que agora exibe um aviso de apreensão federal, junto com o OceanofPDF e o WeLib, “outro site prolífico com acesso a uma grande quantidade de conteúdo não autorizado protegido por direitos autorais”.
O conjunto de dados C4 contém trabalhos de pelo menos 28 sites identificados pelo governo dos EUA como mercados de pirataria e falsificações, observa a denúncia.
“O símbolo de direitos autorais (©) aparece mais de 200 milhões de vezes no conjunto de dados C4”, diz a reclamação, observando que o Google supostamente excluiu “avisos de política” e avisos de “termos de uso”, mas incluiu “vastas categorias de trabalhos protegidos por direitos autorais, trabalhos piratas e trabalhos retirados de acesso pago”.
Os editores alegam que o Google copiou obras de bibliotecas baseadas em assinatura, como Scribd.com, contornando acordos de licenciamento legítimos.
Quando confrontado com esta prática, o provedor de conjuntos de dados sem fins lucrativos Common Crawl supostamente respondeu com “uma mentalidade de culpar a vítima, proclamando ‘Você não deveria ter colocado seu conteúdo na Internet se não quisesse que ele estivesse na Internet'”.
O processo alega que a Gemini agora produz resultados que “substituem obras protegidas por direitos autorais”, incluindo reproduções literais, resumos detalhados e “imitações que copiam elementos criativos de obras originais”.
Descriptografar entrou em contato com o Google e com o conselho dos editores.
IA e editores
O Google está simultaneamente se defendendo contra alegações antitruste da Penske Media Corporation sobre seu recurso AI Overviews, com a gigante da tecnologia alegando que a exibição de resumos gerados por IA constitui “melhoria legal do produto, em vez de comportamento anticompetitivo”.
Os editores buscam indenizações legais, liminares para impedir novas infrações e uma ordem exigindo que o Google destrua todas as cópias não autorizadas de suas obras e divulgue quais livros foram usados para treinar Gemini.
A moção para intervir segue uma série de ações judiciais de direitos autorais que os autores moveram contra empresas de IA em 2023, com juízes federais entregando vitórias parciais à Meta e à Anthropic, decidindo que o uso de livros protegidos por direitos autorais para treinar seus modelos constituía uso justo sob a lei de direitos autorais, mas criticaram as empresas por manterem bibliotecas permanentes de livros piratas.
Resumo Diário Boletim informativo
Comece cada dia com as principais notícias do momento, além de recursos originais, podcast, vídeos e muito mais.
Fontedecrypt




