Source: Decrypt

Em resumo

  • O novo modelo Z-Image funciona com VRAM de 6 GB – hardware que o Flux2 nem consegue tocar.
  • Z-Image já possui mais de 200 recursos comunitários e mais de mil avaliações positivas contra as 157 avaliações do Flux2.
  • É classificado como o melhor modelo de código aberto até o momento.

Laboratório Tongyi do Alibaba Imagem Z Turboum modelo de geração de imagens de 6 bilhões de parâmetros, foi lançado na semana passada com uma promessa simples: qualidade de última geração no hardware que você realmente possui.

Essa promessa está caindo com força. Nos dias de seu lançamento, os desenvolvedores estavam lançando LoRAs – adaptações personalizadas e ajustadas – em um ritmo que já ultrapassava o Flux2, o tão aguardado sucessor do modelo Flux extremamente popular do Black Forest Labs.

O truque de festa da Z-Image é a eficiência. Enquanto concorrentes como o Flux2 exigem no mínimo 24 GB de VRAM (e até 90 GB para o modelo completo), o Z-Image funciona em configurações quantizadas com apenas 6 GB.

Esse é o território RTX 2060 – basicamente hardware de 2019. Dependendo da resolução, os usuários podem gerar imagens em apenas 30 segundos.

Para amadores e criadores independentes, esta é uma porta que antes estava trancada.

A comunidade artística de IA elogiou rapidamente o modelo.

“Isso é o que o SD3 deveria ser”, escreveu o usuário Saruhey no CivitAI, o maior repositório mundial de ferramentas de arte de IA de código aberto. “A adesão imediata é bastante excelente… um modelo que pode enviar texto imediatamente é uma mudança de jogo. Essa coisa tem o mesmo poder, se não melhor, do que o Flux é magia negra por si só. Os chineses estão muito à frente do jogo de IA.”

Z-Image Turbo está disponível em Civitai desde quinta-feira passada e já obteve mais de 1.200 avaliações positivas. Para contextualizar, o Flux2 – lançado alguns dias antes do Z-Image – 157.

O modelo é totalmente sem censura do zero. Celebridades, personagens fictícios e, sim, conteúdo explícito estão todos em jogo.

Atualmente, existem cerca de 200 recursos (ajustes, LoRAs, fluxos de trabalho) apenas para o modelo Civitai, muitos dos quais são NSFW.

No Reddit, o usuário Regular-Forever5876 testou os limites do modelo com avisos sangrentos e ficou surpreso: “Caramba! Essa coisa entende AF sangrento! escreveu.

O segredo técnico por trás do Z-Image Turbo é sua arquitetura S3-DiT – um transformador de fluxo único que processa dados de texto e imagem desde o início, em vez de mesclá-los posteriormente. Essa forte integração, combinada com técnicas agressivas de destilação, permite que o modelo atenda aos padrões de qualidade que normalmente exigem modelos cinco vezes maiores.

Testando o modelo

Executamos o Z-Image Turbo através de testes extensivos em múltiplas dimensões. Aqui está o que encontramos.

Velocidade: ritmo SDXL, qualidade de última geração

Com nove etapas, o Z-Image Turbo gera imagens aproximadamente na mesma velocidade do SDXL, com as habituais 30 etapas – um modelo que caiu em 2023.

A diferença é que a qualidade de saída do Z-Image corresponde ou supera o Flux. Em um laptop com GPU RTX 2060 com 6 GB de VRAM, uma imagem demorava 34 segundos.

O Flux2, em comparação, leva aproximadamente dez vezes mais tempo para gerar uma imagem comparável.

Realismo: o novo benchmark

Z-Image Turbo é o modelo de código aberto mais fotorrealista disponível atualmente para hardware de consumo. Ele supera o Flux2 de uma vez, e o modelo destilado básico supera os ajustes finos de realismo dedicados do Flux.

A textura da pele e do cabelo parece detalhada e natural. O infame “queixo de fluxo” e a “pele de plástico” praticamente desapareceram. As proporções corporais são consistentemente sólidas e LoRAs que aumentam ainda mais o realismo já estão circulando.

Geração de texto: finalmente, palavras que funcionam

É aqui que o Z-Image realmente brilha. É o melhor modelo de código aberto para geração de texto em imagem, com desempenho equivalente ao Nanobanana e Seedream do Google – modelos que definem o padrão atual.

Para falantes de mandarim, Z-Image é a escolha óbvia. Ele entende chinês nativamente e renderiza os caracteres corretamente.

Dica profissional: alguns usuários relataram que solicitar em mandarim realmente ajuda o modelo a produzir melhores resultados, e os desenvolvedores até publicaram um “intensificador de prompt” em mandarim.

O texto em inglês é igualmente forte, com uma exceção: palavras longas e incomuns, como “descentralizado”, podem atrapalhar – uma limitação compartilhada também pelo Nanobanana.

Consciência espacial e adesão imediata: Excepcional

A pronta adesão da Z-Image é excelente. Compreende estilo, relações espaciais, posições e proporções com notável precisão.

Por exemplo, siga este prompt:

Um cachorro com chapéu vermelho em cima de uma TV mostrando as palavras “Descriptografar 是世界上最好的加密货币与人工智能媒体网站” na tela. À esquerda, há uma mulher loira de terno segurando uma moeda; à direita, há um robô em cima de uma caixa de primeiros socorros e uma pirâmide verde atrás da caixa. O cenário geral é surreal. Um gato está de cabeça para baixo em cima de uma bola de futebol branca, ao lado do cachorro. Um astronauta da NASA segura uma placa que diz “Emerge” e é colocada ao lado do robô.

Como é perceptível, houve apenas um erro de digitação, provavelmente por causa da mistura de idiomas, mas fora isso, todos os elementos estão representados com precisão.

O sangramento imediato é mínimo e cenas complexas com vários assuntos permanecem coerentes. Ele supera o Flux nesta métrica e se mantém contra o Nanobanana.

O que vem a seguir?

Alibaba planeja lançar mais duas variantes: Z-Image-Base para ajuste fino e Z-Image-Edit para modificações baseadas em instruções. Se eles chegarem com o mesmo polimento do Turbo, o cenário do código aberto está prestes a mudar drasticamente.

Por enquanto, o veredicto da comunidade é claro: Z-Image tomou a coroa do Flux, assim como o Flux uma vez destronou o Stable Diffusion.

O verdadeiro vencedor será quem atrair mais desenvolvedores para construir em cima dele.

Mas se você nos perguntar, sim, Z-Image é nosso modelo de código aberto voltado para casa favorito no momento.

Geralmente inteligente Boletim informativo

Uma jornada semanal de IA narrada por Gen, um modelo generativo de IA.

Fontedecrypt

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *