Uma equipe do Hunyuan Lab, de Tencent, criou uma nova IA, ‘Hunyuan Video-Foley’, que finalmente traz áudio realista para o vídeo gerado. Ele foi projetado para ouvir vídeos e gerar uma trilha sonora de alta qualidade que está perfeitamente sincronizada com a ação na tela.
Já assistiu a um vídeo gerado pela IA e sentiu que algo estava faltando? Os visuais podem ser impressionantes, mas geralmente têm um silêncio estranho que quebra o feitiço. Na indústria cinematográfica, o som que preenche esse silêncio – o farfalhar das folhas, o aplauso do trovão, o taco de um copo – é chamado de arte de Foley, e é um artesanato meticuloso realizado por especialistas.
Combinar esse nível de detalhe é um enorme desafio para a IA. Durante anos, os sistemas automatizados têm lutado para criar sons críveis para vídeos.
Como o Tencent está resolvendo o áudio gerado pela IA para problemas de vídeo?
Uma das maiores razões pelas quais os modelos de vídeo para áudio (V2A) geralmente ficavam aquém do departamento de som foi o que os pesquisadores chamam de “desequilíbrio da modalidade”. Essencialmente, a IA estava ouvindo mais os avisos de texto que recebeu do que assistindo ao vídeo real.
Por exemplo, se você deu a um modelo um vídeo de uma praia movimentada com pessoas andando e gaivotas voando, mas o prompt de texto dizia apenas “o som das ondas oceânicas”, você provavelmente terá o som das ondas. A IA ignoraria completamente os passos na areia e as chamadas dos pássaros, fazendo a cena parecer sem vida.
Além disso, a qualidade do áudio costumava ser subparta, e simplesmente não havia vídeo suficiente de alta qualidade com som para treinar os modelos de maneira eficaz.
A equipe Hunyuan de Tencent enfrentou esses problemas de três ângulos diferentes:
- Tencent percebeu que a IA precisava de uma educação melhor, então eles construíram uma biblioteca enorme de 100.000 horas de vídeo, áudio e descrições de texto para aprender. Eles criaram um pipeline automatizado que filtrou o conteúdo de baixa qualidade da Internet, livrando-se de clipes com longos silêncios ou áudio comprimido e difuso, garantindo a IA aprendida com o melhor material possível.
- Eles projetaram uma arquitetura mais inteligente para a IA. Pense nisso como ensinar o modelo a multitarefa adequadamente. O sistema primeiro presta atenção incrivelmente estreita ao link do visual-Audio para obter o tempo certo-como combinar o golpe de um passo ao momento exato em que um sapato bate na calçada. Uma vez que o tempo preso, ele incorpora o prompt de texto para entender o humor e o contexto geral da cena. Essa abordagem dupla garante que os detalhes específicos do vídeo nunca sejam esquecidos.
- Para garantir que o som era de alta qualidade, eles usaram uma estratégia de treinamento chamada alinhamento de representação (REPA). É como ter um engenheiro de áudio especializado constantemente olhando o ombro da IA durante o treinamento. Ele compara o trabalho da IA a recursos de um modelo de áudio pré-treinado e de nível profissional para guiá-lo para produzir som mais limpo, mais rico e estável.
Os resultados falar som para si
Quando o Tencent testou Hunyuan Video-Foley contra outros modelos de IA líder, os resultados do áudio foram claros. Não era apenas que as métricas baseadas em computador fossem melhores; Os ouvintes humanos classificaram consistentemente sua saída como maior qualidade, melhor correspondentes ao vídeo e com mais precisão.
Em geral, a IA proporcionou melhorias para fazer com que o som corresponda à ação na tela, tanto em termos de conteúdo quanto de tempo. Os resultados em vários conjuntos de dados de avaliação suportam isso:
O trabalho de Tencent ajuda a fechar a lacuna entre os vídeos silenciosos da IA e uma experiência de visualização imersiva com áudio de qualidade. Está trazendo a magia da arte de Foley para o mundo da criação automatizada de conteúdo, que pode ser uma capacidade poderosa para cineastas, animadores e criadores em todos os lugares.
Veja também: O Google Vids recebe avatares de IA e ferramentas de imagem para vídeo
Deseja aprender mais sobre IA e Big Data dos líderes do setor? Confira a AI & Big Data Expo em Amsterdã, Califórnia e Londres. O evento abrangente faz parte do TechEx e é co-localizado com outros eventos de tecnologia líder, clique aqui para obter mais informações.
A IA News é alimentada pela Techforge Media. Explore outros próximos eventos e webinars de tecnologia corporativa aqui.
Fontesartificialintelligence