Em resumo
- Os juízes consideraram as reivindicações da GEMA válidas, ordenando que a OpenAI cessasse a reprodução e fornecesse danos e divulgação.
- O tribunal disse que GPT-4 e GPT-4o “memorizaram” as letras, o que equivale a uma reprodução sob as regras de direitos autorais da UE.
- A decisão, ainda não definitiva, poderá estabelecer um importante precedente europeu em dados de formação em IA.
A organização nacional de direitos musicais da Alemanha garantiu uma vitória parcial, mas decisiva, contra a OpenAI depois que um tribunal de Munique decidiu que os modelos subjacentes do ChatGPT reproduziam ilegalmente letras de músicas alemãs protegidas por direitos autorais.
A decisão ordena que a OpenAI cesse a reprodução, divulgue detalhes relevantes do treinamento e compense os detentores dos direitos. Ainda não é definitivo e a OpenAI pode recorrer.
Se for mantida, a decisão poderá remodelar a forma como as empresas de IA obtêm e licenciam material criativo na Europa, à medida que os reguladores avaliam obrigações mais amplas em termos de transparência do modelo e proveniência dos dados de formação.
O caso marca a primeira vez que um tribunal europeu conclui que um grande modelo linguístico violou os direitos de autor ao memorizar obras protegidas.
Em sua decisão, a 42ª Câmara Cível do Tribunal Regional de Munique I disse que GPT-4 e GPT-4o continham letras “reproduzíveis” de nove canções conhecidas, incluindo “Atemlos” de Kristina Bach e “Wie schön, dass du geboren bist” de Rolf Zuckowski.
O tribunal considerou que tal memorização constitui uma “fixação” das obras originais nos parâmetros do modelo, satisfazendo a definição legal de reprodução nos termos Artigo 2.º da Diretiva InfoSoc da UE e da Alemanha Lei de Direitos Autorais.
“Pelo menos em casos individuais, quando solicitado adequadamente, o modelo produz um resultado cujo conteúdo é pelo menos parcialmente idêntico ao conteúdo do conjunto de dados de treinamento anterior”, uma cópia traduzida da sentença escrita fornecida pelo tribunal de Munique para Descriptografar lê.
O modelo “gera uma sequência de tokens que parece estatisticamente plausível porque, por exemplo, estava contido no processo de treinamento de uma forma particularmente estável ou frequentemente recorrente”, escreveu o tribunal, acrescentando que, como essa “sequência de token apareceu em um grande número de sites acessíveis ao público”, isso significa que foi “incluída no conjunto de dados de treinamento mais de uma vez”.
Nas peças processuais, a GEMA argumentou que as letras de saída do modelo eram quase textuais quando solicitadas, provando que os sistemas da OpenAI retiveram e reproduziram as obras.
A OpenAI respondeu que seus modelos não armazenam dados de treinamento diretamente e que qualquer saída resulta de solicitações do usuário, e não de cópia deliberada.
A empresa também invocou mineração de texto e dados exceçõesque permitem reproduções temporárias para uso analítico.
“Discordamos da decisão e estamos considerando os próximos passos”, disse um porta-voz da OpenAI Descriptografar. “A decisão é para um conjunto limitado de letras e não afeta os milhões de pessoas, empresas e desenvolvedores na Alemanha que usam nossa tecnologia todos os dias.”
Sistemas de reivindicações da OpenAI como o deles não armazenam nem contêm dados de treinamento e, portanto, não mantêm cópias de letras ou outros textos. Em vez disso, esses modelos aprendem padrões e geram novos resultados baseados em padrões, disse OpenAI.
A empresa disse Descriptografar que tratar um modelo como se contivesse obras armazenadas reflete um mal-entendido sobre como a tecnologia funciona.
O tribunal rejeitou essas defesas, decidindo que as reproduções completas incorporadas na estrutura de um modelo estão fora do âmbito das isenções de mineração de dados.
“O treinamento dos modelos não deve ser considerado uma forma usual e esperada de uso que o detentor dos direitos deve antecipar”, escreveu o tribunal. “Isso se aplica ainda mais quando – como no presente caso – as obras são reproduzidas no modelo, algo que até os próprios réus consideram indesejável e contra o qual são tomadas contra-medidas.”
Descriptografar entrou em contato separadamente com a GEMA para comentar, mas ainda não recebeu uma resposta até o momento desta publicação.
Geralmente inteligente Boletim informativo
Uma jornada semanal de IA narrada por Gen, um modelo generativo de IA.
Fontedecrypt




