Z-Image da China destrona Flux como rei da arte de IA – e seu PC de batata pode executá-lo

Em resumo

O novo modelo Z-Image funciona com VRAM de 6 GB – hardware que o Flux2 nem consegue tocar.
Z-Image já possui mais de 200 recursos comunitários e mais de mil avaliações positivas contra as 157 avaliações do Flux2.
É classificado como o melhor modelo de código aberto até o momento.

Laboratório Tongyi do Alibaba Imagem Z Turboum modelo de geração de imagens de 6 bilhões de parâmetros, foi lançado na semana passada com uma promessa simples: qualidade de última geração no hardware que você realmente possui.

Essa promessa está caindo com força. Nos dias de seu lançamento, os desenvolvedores estavam lançando LoRAs – adaptações personalizadas e ajustadas – em um ritmo que já ultrapassava o Flux2, o tão aguardado sucessor do modelo Flux extremamente popular do Black Forest Labs.

O truque de festa da Z-Image é a eficiência. Enquanto concorrentes como o Flux2 exigem no mínimo 24 GB de VRAM (e até 90 GB para o modelo completo), o Z-Image funciona em configurações quantizadas com apenas 6 GB.

Esse é o território RTX 2060 – basicamente hardware de 2019. Dependendo da resolução, os usuários podem gerar imagens em apenas 30 segundos.

Para amadores e criadores independentes, esta é uma porta que antes estava trancada.

A comunidade artística de IA elogiou rapidamente o modelo.

“Isso é o que o SD3 deveria ser”, escreveu o usuário Saruhey no CivitAI, o maior repositório mundial de ferramentas de arte de IA de código aberto. “A adesão imediata é bastante excelente… um modelo que pode enviar texto imediatamente é uma mudança de jogo. Essa coisa tem o mesmo poder, se não melhor, do que o Flux é magia negra por si só. Os chineses estão muito à frente do jogo de IA.”

Z-Image Turbo está disponível em Civitai desde quinta-feira passada e já obteve mais de 1.200 avaliações positivas. Para contextualizar, o Flux2 – lançado alguns dias antes do Z-Image – 157.

O modelo é totalmente sem censura do zero. Celebridades, personagens fictícios e, sim, conteúdo explícito estão todos em jogo.

Atualmente, existem cerca de 200 recursos (ajustes, LoRAs, fluxos de trabalho) apenas para o modelo Civitai, muitos dos quais são NSFW.

No Reddit, o usuário Regular-Forever5876 testou os limites do modelo com avisos sangrentos e ficou surpreso: “Caramba! Essa coisa entende AF sangrento! escreveu.

O segredo técnico por trás do Z-Image Turbo é sua arquitetura S3-DiT – um transformador de fluxo único que processa dados de texto e imagem desde o início, em vez de mesclá-los posteriormente. Essa forte integração, combinada com técnicas agressivas de destilação, permite que o modelo atenda aos padrões de qualidade que normalmente exigem modelos cinco vezes maiores.

Testando o modelo

Executamos o Z-Image Turbo através de testes extensivos em múltiplas dimensões. Aqui está o que encontramos.

Velocidade: ritmo SDXL, qualidade de última geração

Com nove etapas, o Z-Image Turbo gera imagens aproximadamente na mesma velocidade do SDXL, com as habituais 30 etapas – um modelo que caiu em 2023.

A diferença é que a qualidade de saída do Z-Image corresponde ou supera o Flux. Em um laptop com GPU RTX 2060 com 6 GB de VRAM, uma imagem demorava 34 segundos.

O Flux2, em comparação, leva aproximadamente dez vezes mais tempo para gerar uma imagem comparável.

Realismo: o novo benchmark

Z-Image Turbo é o modelo de código aberto mais fotorrealista disponível atualmente para hardware de consumo. Ele supera o Flux2 de uma vez, e o modelo destilado básico supera os ajustes finos de realismo dedicados do Flux.

A textura da pele e do cabelo parece detalhada e natural. O infame “queixo de fluxo” e a “pele de plástico” praticamente desapareceram. As proporções corporais são consistentemente sólidas e LoRAs que aumentam ainda mais o realismo já estão circulando.

Geração de texto: finalmente, palavras que funcionam

É aqui que o Z-Image realmente brilha. É o melhor modelo de código aberto para geração de texto em imagem, com desempenho equivalente ao Nanobanana e Seedream do Google – modelos que definem o padrão atual.

Para falantes de mandarim, Z-Image é a escolha óbvia. Ele entende chinês nativamente e renderiza os caracteres corretamente.

Dica profissional: alguns usuários relataram que solicitar em mandarim realmente ajuda o modelo a produzir melhores resultados, e os desenvolvedores até publicaram um “intensificador de prompt” em mandarim.

O texto em inglês é igualmente forte, com uma exceção: palavras longas e incomuns, como “descentralizado”, podem atrapalhar – uma limitação compartilhada também pelo Nanobanana.

Consciência espacial e adesão imediata: Excepcional

A pronta adesão da Z-Image é excelente. Compreende estilo, relações espaciais, posições e proporções com notável precisão.

Por exemplo, siga este prompt:

Um cachorro com chapéu vermelho em cima de uma TV mostrando as palavras “Descriptografar 是世界上最好的加密货币与人工智能媒体网站” na tela. À esquerda, há uma mulher loira de terno segurando uma moeda; à direita, há um robô em cima de uma caixa de primeiros socorros e uma pirâmide verde atrás da caixa. O cenário geral é surreal. Um gato está de cabeça para baixo em cima de uma bola de futebol branca, ao lado do cachorro. Um astronauta da NASA segura uma placa que diz “Emerge” e é colocada ao lado do robô.

Como é perceptível, houve apenas um erro de digitação, provavelmente por causa da mistura de idiomas, mas fora isso, todos os elementos estão representados com precisão.

O sangramento imediato é mínimo e cenas complexas com vários assuntos permanecem coerentes. Ele supera o Flux nesta métrica e se mantém contra o Nanobanana.

O que vem a seguir?

Alibaba planeja lançar mais duas variantes: Z-Image-Base para ajuste fino e Z-Image-Edit para modificações baseadas em instruções. Se eles chegarem com o mesmo polimento do Turbo, o cenário do código aberto está prestes a mudar drasticamente.

Por enquanto, o veredicto da comunidade é claro: Z-Image tomou a coroa do Flux, assim como o Flux uma vez destronou o Stable Diffusion.

O verdadeiro vencedor será quem atrair mais desenvolvedores para construir em cima dele.

Mas se você nos perguntar, sim, Z-Image é nosso modelo de código aberto voltado para casa favorito no momento.

Geralmente inteligente Boletim informativo

Uma jornada semanal de IA narrada por Gen, um modelo generativo de IA.

Fontedecrypt

Z-Image da China destrona Flux como rei da arte de IA – e seu PC de batata pode executá-lo

ByJose Antonio Lanz

Em resumo

Testando o modelo

Realismo: o novo benchmark

Geração de texto: finalmente, palavras que funcionam

Consciência espacial e adesão imediata: Excepcional

O que vem a seguir?

Geralmente inteligente Boletim informativo

By Jose Antonio Lanz

Leia Também

múltiplos indicadores sugerem outra queda de 50%

O preço do DOGE fica abaixo do suporte principal – falsificação ou início de uma correção maior?

Perspectiva de preço do Aster torna-se otimista em meio à retomada das recompras

Deixe um comentário Cancelar resposta

Leia Também:

múltiplos indicadores sugerem outra queda de 50%

O preço do DOGE fica abaixo do suporte principal – falsificação ou início de uma correção maior?

Perspectiva de preço do Aster torna-se otimista em meio à retomada das recompras

Sony Bank prepara lançamento de stablecoin nos EUA para expandir o alcance de ativos digitais