Em resumo
- O novo modelo Z-Image funciona com VRAM de 6 GB – hardware que o Flux2 nem consegue tocar.
- Z-Image já possui mais de 200 recursos comunitários e mais de mil avaliações positivas contra as 157 avaliações do Flux2.
- É classificado como o melhor modelo de código aberto até o momento.
Laboratório Tongyi do Alibaba Imagem Z Turboum modelo de geração de imagens de 6 bilhões de parâmetros, foi lançado na semana passada com uma promessa simples: qualidade de última geração no hardware que você realmente possui.
Essa promessa está caindo com força. Nos dias de seu lançamento, os desenvolvedores estavam lançando LoRAs – adaptações personalizadas e ajustadas – em um ritmo que já ultrapassava o Flux2, o tão aguardado sucessor do modelo Flux extremamente popular do Black Forest Labs.
O truque de festa da Z-Image é a eficiência. Enquanto concorrentes como o Flux2 exigem no mínimo 24 GB de VRAM (e até 90 GB para o modelo completo), o Z-Image funciona em configurações quantizadas com apenas 6 GB.
Esse é o território RTX 2060 – basicamente hardware de 2019. Dependendo da resolução, os usuários podem gerar imagens em apenas 30 segundos.
Para amadores e criadores independentes, esta é uma porta que antes estava trancada.
A comunidade artística de IA elogiou rapidamente o modelo.
“Isso é o que o SD3 deveria ser”, escreveu o usuário Saruhey no CivitAI, o maior repositório mundial de ferramentas de arte de IA de código aberto. “A adesão imediata é bastante excelente… um modelo que pode enviar texto imediatamente é uma mudança de jogo. Essa coisa tem o mesmo poder, se não melhor, do que o Flux é magia negra por si só. Os chineses estão muito à frente do jogo de IA.”
Z-Image Turbo está disponível em Civitai desde quinta-feira passada e já obteve mais de 1.200 avaliações positivas. Para contextualizar, o Flux2 – lançado alguns dias antes do Z-Image – 157.
O modelo é totalmente sem censura do zero. Celebridades, personagens fictícios e, sim, conteúdo explícito estão todos em jogo.
Atualmente, existem cerca de 200 recursos (ajustes, LoRAs, fluxos de trabalho) apenas para o modelo Civitai, muitos dos quais são NSFW.
No Reddit, o usuário Regular-Forever5876 testou os limites do modelo com avisos sangrentos e ficou surpreso: “Caramba! Essa coisa entende AF sangrento! escreveu.
O segredo técnico por trás do Z-Image Turbo é sua arquitetura S3-DiT – um transformador de fluxo único que processa dados de texto e imagem desde o início, em vez de mesclá-los posteriormente. Essa forte integração, combinada com técnicas agressivas de destilação, permite que o modelo atenda aos padrões de qualidade que normalmente exigem modelos cinco vezes maiores.
Testando o modelo
Executamos o Z-Image Turbo através de testes extensivos em múltiplas dimensões. Aqui está o que encontramos.
Velocidade: ritmo SDXL, qualidade de última geração
Com nove etapas, o Z-Image Turbo gera imagens aproximadamente na mesma velocidade do SDXL, com as habituais 30 etapas – um modelo que caiu em 2023.
A diferença é que a qualidade de saída do Z-Image corresponde ou supera o Flux. Em um laptop com GPU RTX 2060 com 6 GB de VRAM, uma imagem demorava 34 segundos.
O Flux2, em comparação, leva aproximadamente dez vezes mais tempo para gerar uma imagem comparável.
Realismo: o novo benchmark
Z-Image Turbo é o modelo de código aberto mais fotorrealista disponível atualmente para hardware de consumo. Ele supera o Flux2 de uma vez, e o modelo destilado básico supera os ajustes finos de realismo dedicados do Flux.
A textura da pele e do cabelo parece detalhada e natural. O infame “queixo de fluxo” e a “pele de plástico” praticamente desapareceram. As proporções corporais são consistentemente sólidas e LoRAs que aumentam ainda mais o realismo já estão circulando.
Geração de texto: finalmente, palavras que funcionam
É aqui que o Z-Image realmente brilha. É o melhor modelo de código aberto para geração de texto em imagem, com desempenho equivalente ao Nanobanana e Seedream do Google – modelos que definem o padrão atual.
Para falantes de mandarim, Z-Image é a escolha óbvia. Ele entende chinês nativamente e renderiza os caracteres corretamente.
Dica profissional: alguns usuários relataram que solicitar em mandarim realmente ajuda o modelo a produzir melhores resultados, e os desenvolvedores até publicaram um “intensificador de prompt” em mandarim.
O texto em inglês é igualmente forte, com uma exceção: palavras longas e incomuns, como “descentralizado”, podem atrapalhar – uma limitação compartilhada também pelo Nanobanana.
Consciência espacial e adesão imediata: Excepcional
A pronta adesão da Z-Image é excelente. Compreende estilo, relações espaciais, posições e proporções com notável precisão.
Por exemplo, siga este prompt:
Um cachorro com chapéu vermelho em cima de uma TV mostrando as palavras “Descriptografar 是世界上最好的加密货币与人工智能媒体网站” na tela. À esquerda, há uma mulher loira de terno segurando uma moeda; à direita, há um robô em cima de uma caixa de primeiros socorros e uma pirâmide verde atrás da caixa. O cenário geral é surreal. Um gato está de cabeça para baixo em cima de uma bola de futebol branca, ao lado do cachorro. Um astronauta da NASA segura uma placa que diz “Emerge” e é colocada ao lado do robô.
Como é perceptível, houve apenas um erro de digitação, provavelmente por causa da mistura de idiomas, mas fora isso, todos os elementos estão representados com precisão.
O sangramento imediato é mínimo e cenas complexas com vários assuntos permanecem coerentes. Ele supera o Flux nesta métrica e se mantém contra o Nanobanana.
O que vem a seguir?
Alibaba planeja lançar mais duas variantes: Z-Image-Base para ajuste fino e Z-Image-Edit para modificações baseadas em instruções. Se eles chegarem com o mesmo polimento do Turbo, o cenário do código aberto está prestes a mudar drasticamente.
Por enquanto, o veredicto da comunidade é claro: Z-Image tomou a coroa do Flux, assim como o Flux uma vez destronou o Stable Diffusion.
O verdadeiro vencedor será quem atrair mais desenvolvedores para construir em cima dele.
Mas se você nos perguntar, sim, Z-Image é nosso modelo de código aberto voltado para casa favorito no momento.
Geralmente inteligente Boletim informativo
Uma jornada semanal de IA narrada por Gen, um modelo generativo de IA.
Fontedecrypt




