Embora a IA possa parecer onipresente, ela opera principalmente em uma pequena fração dos 7.000 idiomas do mundo, deixando para trás uma grande parte da população global. A Nvidia pretende consertar esse ponto cego gritante, principalmente na Europa.
A empresa acaba de lançar um novo e poderoso conjunto de ferramentas de código aberto destinado a dar aos desenvolvedores o poder de construir a IA de alta qualidade para 25 idiomas europeus diferentes. Isso inclui os principais idiomas, mas, mais importante, oferece uma tábua de salvação para aqueles frequentemente esquecidos por Big Tech, como croata, estoniana e maltesa.
O objetivo é permitir que os desenvolvedores criem o tipo de ferramentas movidas por voz que muitos de nós dão como garantido, de chatbots multilíngues que realmente o entendem aos bots de atendimento ao cliente e serviços de tradução que funcionam em um piscar de olhos.
A peça central desta iniciativa é Celeirouma enorme biblioteca de fala humana. Ele contém cerca de um milhão de horas de áudio, tudo com curadoria para ajudar a ensinar a IA as nuances de reconhecimento e tradução da fala.
Para fazer uso desses dados de fala, a NVIDIA também está fornecendo dois novos modelos de IA projetados para tarefas de idiomas:
- Canário-1b-V2um grande modelo construído para alta precisão em trabalhos complexos de transcrição e tradução.
- PAGATEET-TDT-0.6B-V3que foi projetado para aplicativos em tempo real, onde a velocidade é tudo.
Se você estiver interessado em mergulhar na ciência por trás disso, o jornal sobre celeiro será apresentado na conferência entre países na Holanda este mês. Para os desenvolvedores ansiosos para sujar as mãos, o conjunto de dados e os dois modelos já estão disponíveis para abraçar o rosto.
A verdadeira magia, no entanto, reside na maneira como esses dados foram criados. Todos sabemos que o treinamento da IA requer vastas quantidades de dados, mas obtê -lo geralmente é um processo lento, caro e francamente tedioso de anotação humana.
Para contornar isso, a equipe de IA da NVIDIA – trabalhando com pesquisadores da Universidade Carnegie Mellon e Fondazione Bruno Kessler – construiu um pipeline automatizado. Usando seu próprio kit de ferramentas NEMO, eles foram capazes de tomar áudio cru e não identificado e chicoteá-lo em dados estruturados de alta qualidade e com os quais uma IA pode aprender.
Esta não é apenas uma conquista técnica; É um grande salto para a inclusão digital. Isso significa que um desenvolvedor em Riga ou Zagreb pode finalmente criar ferramentas de IA movidas a voz que entendem adequadamente seus idiomas locais. E eles podem fazer isso com mais eficiência. A equipe de pesquisa descobriu que seus dados de celeiro são tão eficazes que são necessários cerca de metade da quantidade para atingir um nível de precisão do alvo em comparação com outros conjuntos de dados populares.
Os dois novos modelos demonstram esse poder. O Canary é francamente uma fera, oferecendo a qualidade da tradução e da transcrição que rivaliza com modelos três vezes do seu tamanho, mas com até dez vezes a velocidade. O periquito, enquanto isso, pode mastigar uma reunião de 24 minutos de reunião de uma só vez, descobrindo automaticamente qual idioma está sendo falado. Ambos os modelos são inteligentes o suficiente para lidar com pontuação, capitalização e fornecer registros de data e hora no nível das palavras, necessários para a criação de aplicações de nível profissional.
Ao colocar essas ferramentas poderosas e os métodos por trás deles nas mãos da comunidade global de desenvolvedores, a NVIDIA não está apenas lançando um produto. Está iniciando uma nova onda de inovação, na esperança de criar um mundo onde a IA fala seu idioma, não importa de onde você é.
(Foto de Aedrian Salazar)
Veja também: Deepseek reverte para o modelo NVIDIA para R2 depois que o chip huawei ai falha
Deseja aprender mais sobre IA e Big Data dos líderes do setor? Confira a AI & Big Data Expo em Amsterdã, Califórnia e Londres. O evento abrangente é co-localizado com outros eventos líderes, incluindo a Conferência de Automação Inteligente, Blockx, Digital Transformation Week e Cyber Security & Cloud Expo.
Explore outros próximos eventos de tecnologia corporativa e webinars alimentados pela TechForge aqui.
Fontesartificialintelligence