Decrypt logoOpenAI. Image: Shutterstock/Decrypt

Em resumo

  • O novo modelo de vídeo Sora 2 da OpenAI gera diálogo sincronizado e efeitos sonoros, enquanto um aplicativo iOS permite que os usuários se inseram em vídeos de IA através de “participações especiais”.
  • O OpenAI comparou o lançamento a um “momento GPT-3.5 para vídeo”, com clipes com reconhecimento de física, continuidade de várias cenas e um feed no estilo Tiktok.
  • O SORA 2 Pro foi lançado para assinantes do ChatGPT, enquanto o aplicativo base lançou o acesso somente para convites nos EUA e no Canadá.

O Openai lançou a Sora 2 na terça-feira, emparelhando seu mais recente modelo de geração de vídeo com um novo aplicativo social que permite que os usuários criem, compartilhem e estreitassem em clipes gerados pela AI. A empresa chamou o lançamento de um grande passo adiante na simulação da realidade física, com o modelo agora produzindo áudio sincronizado ao lado do vídeo pela primeira vez.

O modelo atualizado pode gerar videoclipes mostrando interações físicas complexas com as quais os sistemas anteriores lutavam. Em alguns dos exemplos, a Sora gerou rotinas de ginástica olímpica, backflips em paddleboards e caracteres que realizam eixos triplos sem distorção ou transformação aparente. Ao contrário dos geradores de vídeos anteriores que dobram a física para atender aos avisos de texto, o Sora 2 tenta modelar resultados realistas, incluindo falha.

“Os modelos de vídeo anteriores são super -otimistas – eles transformam objetos e deformam a realidade para executar com sucesso um aviso de texto”, disse o Openai em seu anúncio. Sora 2 “é melhor obedecer às leis da física em comparação com os sistemas anteriores”.

O modelo gera paisagens sonoras de fundo, fala e efeitos sonoros diretamente dos avisos de texto. Até agora, o único modelo com esse recurso era o VEO 3 do Google. O sistema também lida com várias seqüências de tiro, mantendo a continuidade nas mudanças de cena, que também é muito complexa e requer um entendimento pesado dos personagens e do meio ambiente.

O Openai está vendendo Sora 2 como o “Momento GPT-3.5 para o vídeo”, comparando-o ao modelo de idioma que precedeu o ChatGPT. A Sora original, lançada em fevereiro de 2024, representou o que a empresa chamou de “Momento do GPT-1”-a primeira indicação de que a geração de vídeo estava começando a trabalhar em escala.

Muitos modelos melhores deixaram rapidamente a Sora no pó, tanto que, quando o OpenAI decidiu lançar seu modelo, as alternativas chinesas foram capazes de gerar um vídeo melhor e mais coerente usando os mesmos prompts.

Por enquanto, a única maneira de testar o modelo é por convite através do novo aplicativo iOS, simplesmente chamado Sora. Ao contrário do modelo anterior, que só poderia ser acessado por meio de um site e focado em gerações de vídeo isoladas, o aplicativo parece ser mais polido e versátil, introduzindo um recurso chamado “Camentos especiais” que permite que os usuários se inseram em cenas geradas.

Depois de gravar um pequeno vídeo para verificar a identidade e capturar a aparência e a voz, os usuários podem aparecer em qualquer ambiente criado pela SORA. O recurso funciona para humanos, animais ou objetos e usuários controlam quem pode usar sua semelhança.

Durante a demonstração, a equipe da OpenAI gerou vídeos de si mesmos, apresentando anúncios, fazendo kickflips e sendo apresentados em diferentes situações em um estilo semelhante a um vídeo Tiktok ou um bobina do Instagram.

O aplicativo inclui um feed personalizável usando o que o OpenAI descrito como uma nova classe de algoritmos de recomendação que aceitam instruções de linguagem natural. O sistema é o padrão de mostrar conteúdo das pessoas que os usuários seguem ou interagem, e a empresa disse que não otimiza para o tempo gasto rolando. Mecanismos internos pesquisam periodicamente os usuários sobre seu bem-estar e oferecem opções para ajustar as configurações de alimentação.

Para os adolescentes, o aplicativo inclui limites padrão para gerações diárias visíveis na alimentação e permissões mais rigorosas em participações especiais. Os pais podem acessar os controles através do ChatGPT para gerenciar limites de rolagem, personalização do algoritmo e configurações diretas de mensagens.

Os usuários manterão o controle total sobre suas participações especiais e poderão revogar o acesso ou remover vídeos contendo sua semelhança a qualquer momento. O aplicativo mostra aos usuários todos os vídeos com sua participação especial, incluindo rascunhos criados por outros que não foram publicados.

A Sora 2 está sendo lançada nos Estados Unidos e no Canadá através do sistema baseado em convidados, com planos de expansão rápida para outros países. O serviço será gratuito com o que o OpenAI chamou de “limites generosos”, embora eles permaneçam sujeitos a restrições de computação. Os assinantes ChatGpt Pro obtêm acesso a uma versão experimental de alta qualidade chamada Sora 2 Pro. A empresa planeja lançar a Sora 2 por meio de sua API e manterá o modelo Turbo Sora 1 anterior disponível.

O Openai disse que a Sora 2 acabará por oferecer aos usuários a opção de pagar por gerações adicionais se a demanda exceder os recursos de computação disponíveis.

Por enquanto, se você não tiver um código de convite, iPhone ou Chatgpt Pro, a única opção é para as execuções limitadas do VEO 3 ou usando geradores de vídeo locais como o WAN. Também existem opções mais baratas como Kling, Semence, Hailuo ou Runway, mas o apelo de ter um modelo de vídeo altamente realista com recursos de mídia social é certamente uma vantagem que ninguém mais no setor oferece.

Geralmente inteligente Boletim informativo

Uma jornada semanal de IA narrada por Gen, um modelo generativo de IA.

Fontedecrypt

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *