A próxima fronteira na IA pode depender de uma nova camada de infraestrutura de dados da Web que permita aos modelos descobrir e mapear este domínio digital em constante expansão. Essa camada deve ser capaz de navegar por centenas de milhões de domínios da web existentes e bilhões de novos URLs criados a cada semana, fornecendo informações em tempo real e superando barreiras técnicas.
“Os dados sugerem que há muito mais dados por aí”, afirma Or Lenchner, CEO da Bright Data, uma plataforma de coleta de dados na web. “Pense no universo: ele está lá fora, mas você não sabe o que não sabe.”
Permitindo o acesso a dados novos, relevantes e confiáveis
Embora os primeiros avanços da IA tenham sido impulsionados pelo dimensionamento dos dados de treinamento e do tamanho do modelo, as organizações agora enfrentam um gargalo fundamental: elas precisam acompanhar a natureza dinâmica, não estruturada e em constante evolução dos dados da Web para basear os resultados em informações atuais e verificáveis. O desempenho da IA depende cada vez mais não apenas da arquitetura do modelo, mas também dos recursos de computação, rede, recuperação e engenharia de dados de um sistema – ou seja, a capacidade do sistema de recuperar dados atualizados, relevantes e confiáveis de forma rápida e confiável.
O treinamento de modelo tradicional depende de instantâneos de informações coletadas em um determinado momento. Treinar a IA com esses dados estáticos não é mais suficiente. Para acompanhar flutuações como os preços dos concorrentes, o sentimento do consumidor e as tendências do mercado, as empresas precisam de um feed constante de novas informações, extraindo dados em tempo real juntamente com o contexto relevante. A sua infraestrutura deve, portanto, ser capaz de lidar com milhões de interações simultâneas em sites que variam de acordo com a geografia, o idioma, o formato e as regras de acesso.
“Se não for possível recuperar informações em tempo real, falta contexto”, diz Lenchner. “Em um ambiente empresarial, isso não é mais aceitável. Respostas obsoletas levam a decisões erradas e consumidores decepcionados.”
A velocidade não é apenas uma questão de conveniência; é uma questão de necessidade. As organizações atuais operam em ambientes onde preços, estoques, mercados, ameaças à segurança e comportamento do cliente mudam continuamente. A recuperação atrasada de dados pode reduzir a utilidade de um modelo sofisticado.
O uso de dados da web ao vivo e de alta qualidade também pode reduzir as alucinações de IA porque o modelo tem uma base de conhecimento mais relevante. Isso aumenta a confiança do usuário. Na verdade, uma pesquisa descobriu que 56% dos profissionais de IA disseram que as empresas precisam de acesso a dados da web em tempo real para aumentar a confiança nos resultados da IA. Para garantir que o modelo funcione de forma eficiente e eficaz, as informações também devem ser reduzidas aos elementos essenciais apropriados.
Apesar da introdução da geração aumentada de recuperação (RAG), em que os modelos extraem dados externos no momento de uma consulta, muitos sistemas de IA ainda lutam para fornecer resultados que sejam atuais, contextualmente relevantes e confiáveis em ambientes operacionais. De acordo com o Gartner, 60% dos projetos de IA que não são apoiados por dados prontos para IA – precisos, estruturados, organizados e contextualizados – serão abandonados até o final do ano.


