Divulgação: As opiniões e opiniões expressas aqui pertencem apenas ao autor e não representam as opiniões e opiniões do editorial da Crypto.News.

A IA pode ser a próxima indústria de trilhões de dólares, mas está se aproximando silenciosamente de um enorme gargalo. Enquanto todos estão correndo para construir modelos maiores e mais poderosos, um problema iminente está ficando amplamente não abordado: podemos ficar sem dados de treinamento utilizáveis ​​em apenas alguns anos.

Resumo

  • A IA está ficando sem combustível: os conjuntos de dados de treinamento têm crescido 3,7x anualmente, e podemos esgotar o suprimento mundial de dados públicos de qualidade entre 2026 e 2032.
  • O mercado de rotulagem está explodindo de US $ 3,7 bilhões (2024) a US $ 17,1 bilhões (2030), enquanto o acesso a dados humanos do mundo real está diminuindo atrás de jardins e regulamentos murados.
  • Os dados sintéticos não são suficientes: loops de feedback e falta de nuances do mundo real o tornam um substituto arriscado para entradas bagunçadas e geradas pelo ser humano.
  • O poder está mudando para os titulares de dados: com os modelos comoditizando, o verdadeiro diferencial será quem possui e controla conjuntos de dados exclusivos e de alta qualidade.

De acordo com a Epoch AI, o tamanho dos conjuntos de dados de treinamento para grandes modelos de idiomas tem crescido a uma taxa de aproximadamente 3,7 vezes por ano desde 2010. Nesse ritmo, poderíamos esgotar o suprimento mundial de dados de treinamento público de alta qualidade entre 2026 e 2032.

Mesmo antes de chegarmos a essa parede, o custo de adquirir e curar dados rotulados já está disparando. O mercado de coleta e rotulagem de dados foi avaliado em US $ 3,77 bilhões em 2024 e é projetado para balão para US $ 17,10 bilhões até 2030.

Esse tipo de crescimento explosivo sugere uma oportunidade clara, mas também um claro ponto de estrangulamento. Os modelos de IA são tão bons quanto os dados em que são treinados. Sem um pipeline escalável de conjuntos de dados frescos, diversos e imparciais, o desempenho desses modelos será o platô e sua utilidade começará a se degradar.

Portanto, a verdadeira pergunta não é quem constrói o próximo grande modelo de IA. É quem possui os dados e de onde eles virão?

O problema de dados da IA ​​é maior do que parece

Na última década, a IA Innovation se apoiou fortemente nos conjuntos de dados publicamente disponíveis: Wikipedia, Rastrear Common, Reddit, repositórios de código de código aberto e muito mais. Mas isso está secando rapidamente. À medida que as empresas apertam o acesso a seus dados e problemas de direitos autorais se acumulam, as empresas de IA estão sendo forçadas a repensar sua abordagem. Os governos também estão introduzindo regulamentos para limitar a eliminação de dados, e o sentimento do público está mudando contra a idéia de treinar modelos de bilhões de dólares em conteúdo não pago gerado pelo usuário.

Os dados sintéticos são uma solução proposta, mas é um substituto arriscado. Modelos treinados em dados gerados por modelos podem levar a loops de feedback, alucinações e desempenho degradado ao longo do tempo. Há também a questão da qualidade: os dados sintéticos geralmente não têm a confusão e as nuances da entrada do mundo real, que é exatamente o que os sistemas de IA precisam ter um bom desempenho em cenários práticos.

Isso deixa os dados do mundo real e gerados pelo ser humano como padrão-ouro, e está ficando mais difícil de encontrar. A maioria das grandes plataformas que coletam dados humanos, como Meta, Google e X (anteriormente Twitter), são jardins murados. O acesso é restrito, monetizado ou banido por completo. Pior, seus conjuntos de dados geralmente se inclinam para regiões, idiomas e dados demográficos específicos, levando a modelos tendenciosos que falham em diversos casos de uso do mundo real.

Em suma, a indústria da IA ​​está prestes a colidir com uma realidade que há muito ignorou: construir um LLM enorme é apenas metade da batalha. Alimentando -o é a outra metade.

Por que isso realmente importa

Existem duas partes na cadeia de valor da IA: criação de modelos e aquisição de dados. Nos últimos cinco anos, quase toda a capital e hype entraram na criação de modelos. Mas, ao empurrarmos os limites do tamanho do modelo, a atenção finalmente está mudando para a outra metade da equação.

Se os modelos estão se tornando comoditizados, com alternativas de código aberto, versões menores de pegada e designs com eficiência de hardware, o verdadeiro diferenciador se torna dados. Conjuntos de dados exclusivos e de alta qualidade serão o combustível que define quais modelos superam.

Eles também introduzem novas formas de criação de valor. Os colaboradores de dados se tornam partes interessadas. Os construtores têm acesso a dados mais frescos e dinâmicos. E as empresas podem treinar modelos que estão melhor alinhados com seu público -alvo.

O futuro da IA ​​pertence a provedores de dados

Estamos entrando em uma nova era de IA, em que quem controla os dados detém o poder real. À medida que a concorrência para treinar melhor, modelos mais inteligentes aquece, a maior restrição não será computada. Será adquirir dados reais, úteis e legais de usar.

A questão agora não é se a IA escalará, mas quem irá alimentar essa escala. Não serão apenas cientistas de dados. Serão administradores de dados, agregadores, colaboradores e plataformas que os juntam. É aí que se encontra a próxima fronteira.

Portanto, da próxima vez que você ouvir sobre uma nova fronteira em inteligência artificial, não pergunte quem construiu o modelo. Pergunte quem o treinou e de onde veio os dados. Porque no final, o futuro da IA ​​não é apenas sobre a arquitetura. É sobre a entrada.

Max Li

Max Li é o fundador e CEO da OORT, a nuvem de dados para IA descentralizada. Dr. Li é professor, engenheiro experiente e inventor com mais de 200 patentes. Sua formação inclui trabalho nos sistemas 4G LTE e 5G, com pesquisas da Qualcomm e contribuições acadêmicas para a teoria da informação, aprendizado de máquina e tecnologia de blockchain. Ele escreveu o livro intitulado “Aprendizagem de reforço para sistemas cibernéticos”Publicado por Taylor & Francis CRC Press.

Fontecrypto.news

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *