Em resumo
- Veo 3.1 apresenta áudio de cena completa, diálogo e geração de som ambiente.
- O lançamento segue o rápido aumento do Sora 2 para 1 milhão de downloads em cinco dias.
- O Google posiciona o Veo como uma alternativa de nível profissional no concorrido mercado de vídeo de IA.
Google lançou o Veo 3.1 hojeuma versão atualizada de seu gerador de vídeo de IA que adiciona áudio a todos os recursos e introduz novos recursos de edição projetados para dar aos criadores mais controle sobre seus clipes.
O anúncio ocorre no momento em que o aplicativo concorrente Sora 2 da OpenAI sobe nas paradas das lojas de aplicativos e desencadeia debates sobre o conteúdo gerado por IA que inunda as mídias sociais.
O momento sugere que o Google deseja posicionar o Veo 3.1 como uma alternativa profissional à abordagem de feed social viral do Sora 2. A OpenAI lançou o Sora 2 em 30 de setembro com uma interface estilo TikTok que prioriza compartilhamento e remixagem.
O aplicativo atingiu 1 milhão de downloads em cinco dias e alcançou o primeiro lugar na App Store da Apple. A Meta adotou uma abordagem semelhante, com seu próprio tipo de mídia social virtual alimentada por vídeos de IA.
Os usuários agora podem criar vídeos com ruído ambiente sincronizado, diálogos e efeitos Foley usando “Ingredients to Video”, uma ferramenta que combina múltiplas imagens de referência em uma única cena.
O recurso “Frames to Video” gera transições entre uma imagem inicial e final, enquanto “Extend” cria clipes com duração de até um minuto, continuando o movimento a partir do segundo final de um vídeo existente.
Novas ferramentas de edição permitem aos usuários adicionar ou remover elementos de cenas geradas com ajustes automáticos de sombra e iluminação. O modelo gera vídeos em resolução 1080p em proporções horizontais ou verticais.
O modelo está disponível por meio do Flow para uso do consumidor, da API Gemini para desenvolvedores e do Vertex AI para clientes corporativos. Vídeos com duração de até um minuto podem ser criados usando o recurso “Estender”, que continua o movimento a partir do segundo final de um clipe existente.
O mercado de geração de vídeo AI ficou lotado em 2025, com o modelo Gen-4 da Runway voltado para cineastas, Luma Labs oferecendo geração rápida para mídia social, Adobe integrando Firefly Video na Creative Cloud e atualizações de xAI, Kling, Meta e Google visando realismo, geração de som e adesão imediata.
Mas quão bom é isso? Testamos o modelo e estas são as nossas impressões.
Testando o modelo
Se você quiser experimentar, é melhor ter alguns bolsos fundos. O Veo 3.1 é atualmente o modelo de geração de vídeo mais caro, no mesmo nível do Sora 2 e atrás apenas do Sora 2 Pro, que custa mais que o dobro por geração.
Os usuários gratuitos recebem 100 créditos mensais para testar o sistema, o que é suficiente para gerar cerca de cinco vídeos por mês. Através da API Gemini, o Veo 3.1 custa aproximadamente US$ 0,40 por segundo de vídeo gerado com áudio, enquanto uma variante mais rápida chamada Veo 3.1 Fast custa US$ 0,15 por segundo.
Para aqueles que desejam usá-lo por esse preço, aqui estão seus pontos fortes e fracos.
Texto para vídeo
Veo 3.1 é uma melhoria definitiva em relação ao seu antecessor. O modelo lida bem com a coerência e demonstra uma melhor compreensão dos ambientes contextuais.
Funciona em diferentes estilos, desde fotorrealismo até conteúdo estilizado.
Pedimos ao modelo que misturar uma cena que começou como um desenho e passou para uma filmagem de ação ao vivo. Ele executou a tarefa melhor do que qualquer outro modelo que testamos.
Sem qualquer quadro de referência, o Veo 3.1 produziu melhores resultados no modo texto para vídeo do que usando o mesmo prompt com uma imagem inicial, o que foi surpreendente.
A desvantagem é a velocidade de movimento. O Veo 3.1 prioriza a coerência em vez da fluidez, tornando um desafio gerar ações em ritmo acelerado.
Os elementos se movem mais lentamente, mas mantêm a consistência durante todo o clipe. Kling ainda lidera movimentos rápidos, embora exija mais tentativas para alcançar resultados utilizáveis.
Imagem para vídeo
A Veo construiu sua reputação com base na geração de imagem para vídeo, e os resultados ainda são satisfatórios – com ressalvas. Esta parece ser uma área mais fraca na atualização. Ao usar diferentes proporções como quadros iniciais, o modelo lutou para manter os níveis de coerência que já teve.
Se o prompt se afastar muito do que logicamente seguiria a imagem de entrada, o Veo 3.1 encontra uma maneira de trapacear. Gera cenas ou clipes incoerentes que pular entre locaisconfigurações ou elementos totalmente diferentes.
Isso desperdiça tempo e créditos, pois esses clipes não podem ser editados em sequências mais longas porque não correspondem ao formato.
Quando funciona, os resultados parecem fantásticos. Chegar lá é parte habilidade, parte sorte – principalmente sorte.
Elementos para vídeo
Esse recurso funciona como pintura interna para vídeo, permitindo aos usuários inserir ou excluir elementos de uma cena. Porém, não espere que ele mantenha uma coerência perfeita ou use suas imagens de referência exatas.
Por exemplo, o vídeo abaixo foi gerado usando essas três referências e o prompt: um homem e uma mulher tropeçam um no outro enquanto correm em uma cidade futurista, onde um holograma de sinal de Bitcoin está girando. O homem diz à mulher: “RÁPIDO, BITCOIN CAIU! PRECISAMOS COMPRAR MAIS!!
Como você pode vernem a cidade nem os personagens estão realmente lá. Porém, os personagens vestem as roupas de referência, a cidade se assemelha à da imagem e as coisas retratam a ideia dos elementos, não os elementos em si.
O Veo 3.1 trata os elementos carregados como inspiração, em vez de modelos rígidos. Ele gera cenas que seguem o prompt e incluem objetos que se assemelham ao que você forneceu, mas não perca tempo tentando se inserir em um filme – não funcionará.
Uma solução alternativa: use Nanobanana ou Seedream para fazer upload de elementos e gerar primeiro um quadro inicial coerente. Em seguida, alimente essa imagem no Veo 3.1, que produzirá um vídeo onde personagens e objetos apresentam deformação mínima ao longo da cena.
Texto para vídeo com diálogo
Este é o ponto de venda do Google. O Veo 3.1 lida com a sincronização labial melhor do que qualquer outro modelo disponível atualmente. No modo texto para vídeo, ele gera som ambiente coerente que corresponda aos elementos da cena.
O diálogo, a entonação, as vozes e as emoções são precisos e superam os modelos concorrentes.
Outros geradores podem produzir ruído ambiente, mas apenas Sora, Veo e Grok podem gerar palavras reais.
Desses três, o Veo 3.1 requer o menor número de tentativas para obter bons resultados no modo texto para vídeo.
Imagem para vídeo com diálogo
É aqui que as coisas desmoronam. A imagem para vídeo com diálogo sofre dos mesmos problemas da geração padrão de imagem para vídeo. O Veo 3.1 prioriza tanto a coerência que ignora a adesão imediata e imagens de referência.
Por exemplo, esta cena foi gerado usando a referência mostrada na seção de elementos do vídeo.
Como você pode ver, nosso teste gerou um assunto completamente diferente da imagem de referência. A qualidade do vídeo era excelente – a entonação e os gestos eram perfeitos – mas não era a pessoa que carregamos, tornando o resultado inútil.
O recurso de remix do Sora é a melhor escolha para este caso de uso. O modelo pode ser censurado, mas seus recursos de imagem para vídeo, sincronização labial realista e foco no tom, sotaque, emoção e realismo o tornam o vencedor claro.
O gerador de vídeo de Grok vem em segundo lugar. Respeitou melhor a imagem de referência que o Veo 3.1 e produziu resultados superiores. Aqui está uma geração usando a mesma imagem de referência e prompt.
Se você não quer lidar com o aplicativo social de Sora ou não tem acesso a ele, Grok pode ser sua melhor opção. Também não é censurado, mas moderado; portanto, se você precisar dessa abordagem específica, Musk tem o que você precisa.
Geralmente inteligente Boletim informativo
Uma jornada semanal de IA narrada por Gen, um modelo generativo de IA.
Fontedecrypt