Mas você não quer nenhuma imagem – você deseja a imagem especificada, normalmente com um prompt de texto. E assim, o modelo de difusão é combinado com um segundo modelo – como um modelo de linguagem grande (LLM) treinado para combinar com imagens com as descrições de texto – que orienta cada etapa do processo de limpeza, empurrando o modelo de difusão para imagens que o modelo de linguagem grande considera uma boa correspondência com o prompt.
Um aparte: este LLM não está puxando os elos entre texto e imagens do nada. Atualmente, a maioria dos modelos de texto para imagem e texto para video é treinado em grandes conjuntos de dados que contêm bilhões de pares de texto e imagens ou texto e vídeo raspados da Internet (uma prática que muitos criadores estão muito infelizes). Isso significa que o que você obtém de modelos tais modelos é uma destilação do mundo, pois é representada on -line, distorcida por preconceito (e pornografia).
É mais fácil imaginar modelos de difusão trabalhando com imagens. Mas a técnica pode ser usada com muitos tipos de dados, incluindo áudio e vídeo. Para gerar clipes de filmes, um modelo de difusão deve limpar sequências de imagens – os quadros consecutivos de um vídeo – em vez de apenas uma imagem.
O que é um modelo de difusão latente?
Tudo isso exige uma enorme quantidade de computação (leia -se: energia). É por isso que a maioria dos modelos de difusão usados para geração de vídeo usa uma técnica chamada difusão latente. Em vez de processar dados brutos – os milhões de pixels em cada quadro de vídeo – o modelo funciona no que é conhecido como espaço latente, no qual os quadros de vídeo (e o prompt de texto) são compactados em um código matemático que captura apenas os recursos essenciais dos dados e joga o restante.
Uma coisa semelhante acontece sempre que você transmite um vídeo pela Internet: um vídeo é enviado de um servidor para sua tela em um formato compactado para fazê -lo chegar a você mais rápido e, quando chegar, seu computador ou TV o converterá em um vídeo assistível.