Uma equipe do Hunyuan Lab, de Tencent, criou uma nova IA, ‘Hunyuan Video-Foley’, que finalmente traz áudio realista para o vídeo gerado. Ele foi projetado para ouvir vídeos e gerar uma trilha sonora de alta qualidade que está perfeitamente sincronizada com a ação na tela.

Já assistiu a um vídeo gerado pela IA e sentiu que algo estava faltando? Os visuais podem ser impressionantes, mas geralmente têm um silêncio estranho que quebra o feitiço. Na indústria cinematográfica, o som que preenche esse silêncio – o farfalhar das folhas, o aplauso do trovão, o taco de um copo – é chamado de arte de Foley, e é um artesanato meticuloso realizado por especialistas.

Combinar esse nível de detalhe é um enorme desafio para a IA. Durante anos, os sistemas automatizados têm lutado para criar sons críveis para vídeos.

Como o Tencent está resolvendo o áudio gerado pela IA para problemas de vídeo?

Uma das maiores razões pelas quais os modelos de vídeo para áudio (V2A) geralmente ficavam aquém do departamento de som foi o que os pesquisadores chamam de “desequilíbrio da modalidade”. Essencialmente, a IA estava ouvindo mais os avisos de texto que recebeu do que assistindo ao vídeo real.

Por exemplo, se você deu a um modelo um vídeo de uma praia movimentada com pessoas andando e gaivotas voando, mas o prompt de texto dizia apenas “o som das ondas oceânicas”, você provavelmente terá o som das ondas. A IA ignoraria completamente os passos na areia e as chamadas dos pássaros, fazendo a cena parecer sem vida.

Além disso, a qualidade do áudio costumava ser subparta, e simplesmente não havia vídeo suficiente de alta qualidade com som para treinar os modelos de maneira eficaz.

A equipe Hunyuan de Tencent enfrentou esses problemas de três ângulos diferentes:

  1. Tencent percebeu que a IA precisava de uma educação melhor, então eles construíram uma biblioteca enorme de 100.000 horas de vídeo, áudio e descrições de texto para aprender. Eles criaram um pipeline automatizado que filtrou o conteúdo de baixa qualidade da Internet, livrando-se de clipes com longos silêncios ou áudio comprimido e difuso, garantindo a IA aprendida com o melhor material possível.
  1. Eles projetaram uma arquitetura mais inteligente para a IA. Pense nisso como ensinar o modelo a multitarefa adequadamente. O sistema primeiro presta atenção incrivelmente estreita ao link do visual-Audio para obter o tempo certo-como combinar o golpe de um passo ao momento exato em que um sapato bate na calçada. Uma vez que o tempo preso, ele incorpora o prompt de texto para entender o humor e o contexto geral da cena. Essa abordagem dupla garante que os detalhes específicos do vídeo nunca sejam esquecidos.
  1. Para garantir que o som era de alta qualidade, eles usaram uma estratégia de treinamento chamada alinhamento de representação (REPA). É como ter um engenheiro de áudio especializado constantemente olhando o ombro da IA ​​durante o treinamento. Ele compara o trabalho da IA ​​a recursos de um modelo de áudio pré-treinado e de nível profissional para guiá-lo para produzir som mais limpo, mais rico e estável.

Os resultados falar som para si

Quando o Tencent testou Hunyuan Video-Foley contra outros modelos de IA líder, os resultados do áudio foram claros. Não era apenas que as métricas baseadas em computador fossem melhores; Os ouvintes humanos classificaram consistentemente sua saída como maior qualidade, melhor correspondentes ao vídeo e com mais precisão.

Em geral, a IA proporcionou melhorias para fazer com que o som corresponda à ação na tela, tanto em termos de conteúdo quanto de tempo. Os resultados em vários conjuntos de dados de avaliação suportam isso:

O trabalho de Tencent ajuda a fechar a lacuna entre os vídeos silenciosos da IA ​​e uma experiência de visualização imersiva com áudio de qualidade. Está trazendo a magia da arte de Foley para o mundo da criação automatizada de conteúdo, que pode ser uma capacidade poderosa para cineastas, animadores e criadores em todos os lugares.

Veja também: O Google Vids recebe avatares de IA e ferramentas de imagem para vídeo

Deseja aprender mais sobre IA e Big Data dos líderes do setor? Confira a AI & Big Data Expo em Amsterdã, Califórnia e Londres. O evento abrangente faz parte do TechEx e é co-localizado com outros eventos de tecnologia líder, clique aqui para obter mais informações.

A IA News é alimentada pela Techforge Media. Explore outros próximos eventos e webinars de tecnologia corporativa aqui.



Fontesartificialintelligence

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *