As ferramentas de transcrição de fala da IA ​​estão prestes a ficar muito mais competitivas com a equipe QWEN da Alibaba, que puxa o modelo QWEN3-ASR-FLASH.

Construído sobre a poderosa inteligência QWEN3-OMNI e treinada usando um conjunto de dados enorme com dezenas de milhões de horas de dados de fala, este não é apenas mais um modelo de reconhecimento de fala da IA. A equipe diz que foi projetada para oferecer desempenho altamente preciso, mesmo quando confrontado com ambientes acústicos complicados ou padrões de linguagem complexos.

Então, como isso se compara à competição? Os dados de desempenho, de testes realizados em agosto de 2025, sugerem que é bastante impressionante.

Em um teste público para chinês padrão, o QWEN3-ASR-FLASH alcançou uma taxa de erro de apenas 3,97%, deixando concorrentes como Gemini-12.5-Pro ​​(8,98%) e GPT4O-Transcribe (15,72%) à frente e mostrando as ferramentas de transcrição de fala mais competitivas da IA.

QWEN3-ASR-FLASH também se mostrou hábil ao lidar com sotaques chineses, com uma taxa de erro de 3,48 %. Em inglês, obteve 3,81 % competitivos, novamente vencendo confortavelmente os 7,63 % e os 8,45 % do GPT4O.

Mas onde realmente vira cabeças está em uma área notoriamente complicada: transcrever música.

Quando encarregado de reconhecer as letras das músicas, Qwen3-Asr-Flash registrou uma taxa de erro de apenas 4,51 %, o que é muito melhor que seus rivais. Essa capacidade de entender a música foi confirmada em testes internos em músicas completas, onde obteve uma taxa de erro de 9,96 %; Uma enorme melhoria em relação aos 32,79 % do GEMINI-2.5-PRO e 58,59 % do GPT4O-Transcrib.

Além de sua precisão impressionante, o modelo traz alguns recursos inovadores para a tabela para ferramentas de transcrição de IA de próxima geração. Um dos maiores mudanças de jogo é o seu viés contextual flexível.

Esqueça os dias de formatação meticulosamente listas de palavras -chave, esse sistema permite que os usuários alimentem o modelo de texto em segundo plano em praticamente qualquer formato para obter resultados personalizados. Você pode fornecer uma lista simples de palavras -chave, documentos inteiros ou até uma mistura confusa de ambos.

Esse processo elimina qualquer necessidade de pré -processamento complexo de informações contextuais. O modelo é inteligente o suficiente para usar o contexto para aprimorar sua precisão; No entanto, seu desempenho geral dificilmente é afetado, mesmo que o texto que você forneça seja completamente irrelevante.

É claro que a ambição do Alibaba para esse modelo de IA é se tornar uma ferramenta de transcrição de fala global. O serviço fornece uma transcrição precisa de um único modelo que cobre 11 idiomas, completo com inúmeros dialetos e sotaques.

O apoio ao chinês é especialmente profundo, cobrindo mandarim, além de grandes dialetos como cantonês, sichuanês, Minnan (Hokkien) e Wu.

Para os falantes de inglês, lida com sotaques britânicos, americanos e outros sotaques regionais. A impressionante lista de outros idiomas apoiados inclui francês, alemão, espanhol, italiano, português, russo, japonês, coreano e árabe.

Para completar tudo, o modelo pode identificar com precisão quais dos 11 idiomas está sendo falada e é adepto de rejeitar segmentos não de fala, como silêncio ou ruído de fundo, garantindo a saída mais limpa do que as ferramentas de transcrição de fala da IA.

Veja também: Siddhartha Choudhury, Booking.com: lutando contra fraude online com ai

Deseja aprender mais sobre IA e Big Data dos líderes do setor? Confira a AI & Big Data Expo em Amsterdã, Califórnia e Londres. O evento abrangente faz parte do TechEx e é co-localizado com outros eventos de tecnologia líder, clique aqui para obter mais informações.

A IA News é alimentada pela Techforge Media. Explore outros próximos eventos e webinars de tecnologia corporativa aqui.

Fontesartificialintelligence

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *