Em resumo
- A Wikimedia Foundation anunciou uma série de parcerias com empresas de IA para usar seu conteúdo no treinamento de LLMs.
- As empresas de IA assinaram contrato com seu produto Enterprise para reutilização em larga escala do conteúdo da Wikipédia.
- Em outubro do ano passado, a Fundação disse que as visitas ao site estavam diminuindo devido ao fato de as pessoas usarem resumos de IA em vez de visitarem o site.
A Fundação Wikimedia anunciou uma série de novas parcerias com empresas de inteligência artificial que lhes permitirão utilizar o conteúdo da Wikipédia para treinar e potencializar os seus modelos de IA, à medida que a organização sem fins lucrativos procura reforçar a sua sustentabilidade a longo prazo num contexto de mudança de comportamento online.
Os acordos foram assinados através da Wikimedia Enterprise, o produto comercial da fundação concebido para reutilizadores e distribuidores em larga escala de conteúdo de projetos da Wikimedia. Novas inscrições incluem Ecosia, Microsoft, Mistral AI, Perplexity, Pleias e ProRata. Eles se juntam a parceiros existentes como Amazon, Google e Meta.
“Na era da IA, a Wikipédia e seu conhecimento criado e curado por humanos nunca foram tão valiosos”, afirmou a fundação em comunicado.
“Seu poder de conhecimento gera chatbots de IA, mecanismos de pesquisa, assistentes de voz e muito mais. A Wikipedia é um dos conjuntos de dados da mais alta qualidade usados no treinamento de grandes modelos de linguagem.”
O anúncio foi feito como parte de uma atualização vinculada ao 25º aniversário da Wikipedia.
A enciclopédia online está entre os dez sites mais visitados em todo o mundo e é o único desse grupo operado por uma organização sem fins lucrativos. Seus mais de 65 milhões de artigos, publicados em mais de 300 idiomas, são vistos quase 15 bilhões de vezes por mês, segundo a fundação.
No entanto, alertou que os padrões de tráfego estão mudando. Em outubro, afirmou que as visitas humanas à Wikipédia caíram 8% ano após ano, atribuindo o declínio aos utilizadores que dependem de resumos gerados por IA em vez de visitarem o site diretamente. Quase 60% das pesquisas no Google agora terminam sem um clique, com respostas na página geralmente alimentadas por conteúdo da Wikipédia.
IA versus editores
Os acordos surgem em meio a um debate mais amplo sobre como as empresas de IA obtêm dados de treinamento. Grandes modelos linguísticos são normalmente treinados em grandes quantidades de material online, uma prática que tem suscitado críticas de autores, editores e outros detentores de direitos que argumentam que a utilização de obras protegidas por direitos de autor sem permissão é uma violação.
Entre eles, o Reddit está envolvido em diversos processos com empresas de IA pela utilização de seu conteúdo para treinar modelos, embora tenha fechado acordos de licenciamento com empresas como o Google.
Na quinta-feira, as principais editoras de livros Hachette Book Group e Cengage Group entraram com uma moção para ingressar em uma ação coletiva existente contra o Google, acusando a empresa de realizar “violação histórica de direitos autorais” para construir sua plataforma Gemini AI. O processo alega que o Google copiou livros sem as devidas licenças durante seus processos de treinamento em IA. O caso foi originalmente movido em 2023 por um grupo de autores.
A OpenAI enfrenta um caso semelhante de demandantes, incluindo o escritor de “Game of Thrones”, George RR Martin.
As empresas de entretenimento também estão pressionando a questão. Em meados de dezembro, a Disney enviou ao Google uma carta de cessação e desistência acusando-o de violação de direitos autorais, mesmo quando a Disney fechou um acordo de licenciamento separado com a OpenAI cobrindo centenas de personagens para vídeos gerados por IA. A Disney emitiu avisos semelhantes a outras empresas de IA e está envolvida em litígios junto com grandes estúdios contra a empresa de geração de imagens Midjourney.
No mesmo mês, uma coligação de escritores, actores e tecnólogos lançou um novo grupo industrial com o objectivo de promover normas aplicáveis que regem a forma como a IA é treinada e utilizada no sector do entretenimento. Mais de 500 figuras proeminentes apoiaram a iniciativa, incluindo Natalie Portman, Cate Blanchett, Ben Affleck, Guillermo del Toro e Taika Waititi.
A Comissão Europeia também abriu uma investigação formal antitruste para saber se o Google violou as regras de concorrência da UE ao utilizar conteúdo de editores e do YouTube para alimentar os seus serviços de IA sem compensação ou consentimento justo.
Não é certo se os detentores de direitos autorais encontrarão recurso. Juízes federais nos EUA concederam recentemente vitórias parciais à Meta e à Anthropic, decidindo que a utilização de livros protegidos por direitos de autor para treinar modelos de IA constituía utilização justa, ao mesmo tempo que criticavam as empresas por manterem bibliotecas permanentes de obras pirateadas.
Resumo Diário Boletim informativo
Comece cada dia com as principais notícias do momento, além de recursos originais, podcast, vídeos e muito mais.
Fontedecrypt




