Em resumo
- A plataforma de mídia social Reddit processou a Perplexity AI, acusando a empresa de um esquema de “escala industrial” para roubar seu conteúdo gerado pelo usuário.
- O Reddit alega que bilhões de páginas de pesquisa foram acessadas por meio de ferramentas que contornaram as proteções dele e do Google.
- O processo nomeia Perplexity, SerpApi, Oxylabs e AWM Proxy como réus.
A plataforma de mídia social Reddit processou a Perplexity AI em um tribunal federal na quarta-feira, alegando que a empresa de inteligência artificial e seus parceiros de dados orquestraram um esquema de “escala industrial” para extrair o conteúdo gerado pelo usuário da plataforma.
O Reddit alega que os outros réus: SerpApi, Oxylabs e AWM Proxy, desenvolveram e venderam ferramentas projetadas especificamente para quebrar as medidas de segurança que protegem seu conteúdo, permitindo a extração em grande escala de dados do Reddit dos resultados de pesquisa.
As ferramentas foram supostamente construídas com a intenção de contornar duas camadas de proteção: primeiro, evitando os próprios sistemas anti-scraping do Reddit e, segundo, contornando os controles do Google para extrair conteúdo do Reddit diretamente dos resultados de seu mecanismo de busca.
As empresas de dados operaram como “provedores de serviços de coleta de dados” e “contornaram as medidas de controle tecnológico do Google e acessaram automaticamente, sem autorização, quase três bilhões páginas de resultados de mecanismos de pesquisa”, diz uma cópia do processo.
O Reddit afirma que a Perplexity usou dados das três empresas para seu mecanismo de resposta, mesmo depois de receber uma carta de cessação e desistência em maio de 2024.
Um representante da Perplexity respondeu e compartilhou uma resposta completa, postada no Reddit.
A Perplexity postou intencionalmente sua resposta no Reddit “para ilustrar um ponto simples: é um link público do Reddit acessível a qualquer pessoa, mas pela lógica do processo do Reddit, se você se referir a ele de alguma forma, eles também poderão processá-lo”, disse o representante. Descriptografar.
A Perplexity descreveu o processo como “um triste exemplo do que acontece quando os dados públicos se tornam uma grande parte do modelo de negócios de uma empresa pública”.
“O Reddit acha que está certo. Mas é o oposto de uma Internet aberta”, afirmou Perplexity.
Um representante da SerpApi disse Descriptografar eles não receberam “nenhuma comunicação ou serviço do Reddit” sobre o assunto, acrescentando que “discordam veementemente das alegações do Reddit” e pretendem buscar recursos legais.
“Nenhuma empresa deve reivindicar a propriedade de dados públicos que não lhes pertencem. É possível que seja apenas uma tentativa de vender os mesmos dados públicos a um preço inflacionado”, disse Denas Grybauskas, diretor de governança e estratégia da Oxylabs. Descriptografar em uma declaração enviada por e-mail.
Da mesma forma, o Reddit “não fez nenhuma tentativa de falar” com a Oxylabs, disse Grybauskas.
Descriptografar entrou em contato com Reddit, Google e AWM Proxy para comentar e atualizará este artigo caso eles respondam.
Um emaranhado jurídico
Em casos como este, os tribunais precisariam primeiro verificar se os termos de serviço de plataformas como o Reddit “abordam explicitamente o treinamento de IA, coleta de dados e uso comercial”, disse Andrew Rossow, advogado de relações públicas e diretor de parcerias estratégicas na pesquisa de vídeo e plataforma de inteligência de conteúdo Oriane. Descriptografar.
Se um usuário concordar com os termos que “concedem à plataforma uma licença ampla, perpétua e isenta de royalties para seu conteúdo”, essa licença “geralmente rege o relacionamento entre o usuário e a plataforma”, explicou Rossow.
Mas não “concede automaticamente à empresa de IA uma licença” para fazer o mesmo, a menos que os termos permitam à plataforma “sublicenciar ou vender os dados para esse fim”, acrescentou.
Os tribunais teriam então que “distinguir entre os direitos autorais do usuário em sua expressão (o texto da postagem) e o uso do conteúdo para mineração de dados (extração de padrões, fatos e modelos de linguagem)”, explicou.
Ainda assim, o suposto “conhecimento” por trás de um LLM (modelo de linguagem grande) “é o produto do tempo, esforço e expressão criativa de milhões de usuários”, argumentou Rossow.
“Tratar este conteúdo gerado por seres humanos como um recurso gratuito, bruto e indiferenciado é uma forma de exploração laboral que desvaloriza as contribuições online”, opinou Rossow, acrescentando que as empresas de IA precisam “respeitar a cidadania digital e as normas comunitárias”, dado que estas são “as regras implícitas e explícitas dos espaços públicos digitais que ingerem”.
Geralmente inteligente Boletim informativo
Uma jornada semanal de IA narrada por Gen, um modelo generativo de IA.
Fontedecrypt