<span class="image__credit--f62c527bbdd8413eb6b6fa545d044c69">Stephanie Arnett/MIT Technology Review | Adobe Stock</span>

Mas você não quer nenhuma imagem – você deseja a imagem especificada, normalmente com um prompt de texto. E assim, o modelo de difusão é combinado com um segundo modelo – como um modelo de linguagem grande (LLM) treinado para combinar com imagens com as descrições de texto – que orienta cada etapa do processo de limpeza, empurrando o modelo de difusão para imagens que o modelo de linguagem grande considera uma boa correspondência com o prompt.

Um aparte: este LLM não está puxando os elos entre texto e imagens do nada. Atualmente, a maioria dos modelos de texto para imagem e texto para video é treinado em grandes conjuntos de dados que contêm bilhões de pares de texto e imagens ou texto e vídeo raspados da Internet (uma prática que muitos criadores estão muito infelizes). Isso significa que o que você obtém de modelos tais modelos é uma destilação do mundo, pois é representada on -line, distorcida por preconceito (e pornografia).

É mais fácil imaginar modelos de difusão trabalhando com imagens. Mas a técnica pode ser usada com muitos tipos de dados, incluindo áudio e vídeo. Para gerar clipes de filmes, um modelo de difusão deve limpar sequências de imagens – os quadros consecutivos de um vídeo – em vez de apenas uma imagem.

O que é um modelo de difusão latente?

Tudo isso exige uma enorme quantidade de computação (leia -se: energia). É por isso que a maioria dos modelos de difusão usados ​​para geração de vídeo usa uma técnica chamada difusão latente. Em vez de processar dados brutos – os milhões de pixels em cada quadro de vídeo – o modelo funciona no que é conhecido como espaço latente, no qual os quadros de vídeo (e o prompt de texto) são compactados em um código matemático que captura apenas os recursos essenciais dos dados e joga o restante.

Uma coisa semelhante acontece sempre que você transmite um vídeo pela Internet: um vídeo é enviado de um servidor para sua tela em um formato compactado para fazê -lo chegar a você mais rápido e, quando chegar, seu computador ou TV o converterá em um vídeo assistível.

technologyreview

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *