C’è un momento, quando provi un nuovo modello text-to-image, in cui smetti di guardare solo l’immagine finale e inizi a chiederti se quella resa (quel tipo di pelle, quel micro-dettaglio sui capelli, quella gestione della luce) è merito del modello, del prompt, della pipeline, o di una combinazione che funziona bene quasi per caso. Oggi il test lo facciamo su Z-Image Turbo, e lo facciamo in modo volutamente “da laboratorio”, cioè partendo dal workflow e non dal risultato, perché è nel flusso che si capisce dove nasce la qualità e dove invece stai solo mascherando i difetti con settaggi comodi. Il flusso che vi propongo per ComfyUI è super minimal, in un solo blocco carica modello, encoder e vae.

Passiamo ad una overview sintetica dei parametri:
- width (1024): Larghezza dell’immagine in pixel. 1024px è una risoluzione standard per immagini quadrate di alta qualità.
- height (1024): Altezza dell’immagine in pixel. In questo caso crea un’immagine quadrata (1024×1024).
- seed (0):
- Il “seme” casuale che determina la generazione dell’immagine
- 0 significa che verrà usato un valore casuale ogni volta
- Se imposti un numero specifico (es. 42), otterrai sempre la stessa immagine con lo stesso prompt
- control after generate (randomize):
- Cosa fare con il seed dopo la generazione
- randomize cambia automaticamente il seed per ogni nuova generazione, creando immagini diverse
- unet_name (z_image_turbo_bf16.safetensors):
- Il modello principale di diffusione
- “bf16” indica precisione a 16-bit (più veloce, meno memoria)
- “turbo” suggerisce generazione accelerata
- clip_name (qwen_3_4b.safetensors):
- Il text encoder che interpreta il tuo prompt
- Qwen 3.4B è un modello linguistico che converte il testo in rappresentazioni comprensibili all’AI
- vae_name (ae.safetensors):
- Variational Autoencoder
- Converte le rappresentazioni latenti in immagini finali (e viceversa)
- Influenza la qualità e i dettagli dell’immagine
Questi parametri controllano l’intero processo di generazione dell’immagine!
Latina female with thick wavy hair, harbor boats and pastel houses behind. Breezy seaside light, warm tones, cinematic close-up.
Ho scelto di lasciare intatto il prompt “da demo” (ritratto femminile, capelli mossi, porto, luce marina, toni caldi, close-up cinematografico). È una scelta intelligente se l’obiettivo è stressare alcuni punti deboli tipici dei modelli, texture dei capelli, gestione della pelle, specularità, profondità di campo, coerenza degli oggetti sullo sfondo (barche, case, orizzonte) e, soprattutto, qualità del volto. Il volto è sempre l’esame più cattivo perché è dove l’occhio umano è più severo perché basta poco per far scattare la sensazione di “quasi, ma non abbastanza”.
Quello che mi lascia stupito è la velocità della generazione, una manciata di secondi per un’immagine da 1k. Rivediamo lo schema di funzionamento da un’altra prospettiva.

Text encoder
Il text encoder è in stile CLIP, l’encoder non è un semplice passaggio obbligato, è un filtro che decide come il linguaggio diventa geometria e materia. Quando si dice “il prompt guida l’immagine”, in realtà si dovrebbe dire: “il prompt viene interpretato dall’encoder e poi quell’interpretazione guida il denoising”. L’encoder è un interprete, e come ogni interprete può essere letterale o creativo, può appiattire significati o separare bene le sfumature.
Nello schema si vede la tokenizzazione, gli embedding e il contesto semantico. A volte basta che un concetto venga spezzato in token strani per cambiare la stabilità della scena. Alcuni modelli “soffrono” quando il prompt mescola attributi estetici e descrittivi, perché l’encoder fatica a mantenere le gerarchie: cosa è più importante, “cinematic” o “harbor boats”? Il risultato tipico è che l’immagine risulta bellissima come fotografia generica, ma vaga nei dettagli di scena, oppure al contrario è precisa sugli oggetti ma perde completamente il feeling cinematografico.
Quando chiedi “breezy seaside light, warm tones, cinematic close-up”, il modello tende a spingere davvero su illuminazione e color grading, o ti restituisce la solita luce standard con saturazione un po’ pompata? La differenza tra un modello “buono” e un modello “che fa scena” spesso sta qui. Un buon modello non mette solo una tinta calda, costruisce una logica di luce con ombre coerenti, riflessi credibili, separazione tra soggetto e sfondo senza contorni artificiali.
U-Net e denoising
Nel flusso c’è un punto che merita una lettura più “da sala macchine”: la U-Net che lavora per 20-50 step e produce un latente denoised. Chi è abituato a giudicare solo il prodotto finale spesso non considera quanto la resa sia un compromesso tra step, guidance (CFG) e seed. E invece è qui che si capisce se Z-Image Turbo è davvero “Turbo” nel senso giusto, cioè se regge bene con meno step, mantenendo dettaglio e coerenza, oppure se il “Turbo” è più un’etichetta e il modello ha bisogno del solito numero di iterazioni per non collassare su artefatti e incoerenze.
Un modello che dà il meglio con pochi step ha un comportamento riconoscibile, già a step bassi la composizione è stabile, le proporzioni del volto non oscillano troppo e lo sfondo non “respira” in modo nervoso. Se invece a step bassi vedi volti leggermente gommosi, capelli che diventano una massa unica, o barche che sembrano simboli, allora il modello è più “lento” di quanto prometta e sta semplicemente cercando di convergere verso una soluzione accettabile.
La CFG (quella “guida del prompt”) è un altro punto che cambia la resa più di quanto si ammetta. Un CFG alto può dare l’impressione di un modello molto preciso, ma spesso è una precisione tossica: costringe il denoising a inseguire l’embedding testuale e finisce per irrigidire la scena. Nei ritratti questo si traduce in pelle troppo perfetta, occhi troppo “stampati”, dettagli eccessivamente netti che non si integrano nella fotografia.Un CFG più moderato tende a lasciare respirare il modello, ma espone anche la sua capacità intrinseca di mantenere il tema senza essere trascinato per il collo dal prompt.
La domanda non è “qual è il CFG giusto”, ma “quanto è grande la finestra di CFG in cui il modello produce risultati buoni senza diventare o vago o artificiale”. I modelli migliori hanno una finestra larga: puoi muovere CFG e step e resti comunque in una zona di immagini sane. I modelli meno maturi hanno una finestra stretta: appena esci da due o tre valori fortunati, l’immagine degrada.
Latente e VAE
Lo “spazio latente” è descritto come rappresentazione compressa (64x64x4) e poi arriva il VAE decoder che torna a 1024×1024 RGB. Qui di solito la conversazione si ferma a “il VAE influenza i colori”, ma in realtà influenza anche il tipo di dettaglio percepito. Non nel senso che inventa dettagli che non esistono, ma nel senso che può rendere alcuni pattern più leggibili e altri più impastati. Capelli, tessuti, pelle e superfici riflettenti sono i primi a mostrare differenze.
Ogni modello, per come è addestrato e per come “risolve” la diffusione, sviluppa una specie di accento. Alcuni hanno un accento fotografico, altri pittorico, altri pubblicitario. Z-Image Turbo sembra orientato a un’estetica da ritratto editoriale, pelle luminosa, sfondo evocativo, contrasto gentile ma presente, e un senso generale di immagine “pronta” senza bisogno di post.
Adesso iniziamo a fare sul serio, spingiamo al limite il modello, prima però impostiamo la struttura per permettere l’utilizzo del prompt negativo e lasciando anche un connettore a disposizione per un LoRA.

Verificate che il vostro case sia ben ventilato… pronti… via!
Ultra-detailed cinematic black and white vintage street photo, 1950s–1960s European city atmosphere, one adult blonde woman with classic wavy hair, wearing a beige trench coat, standing beside a shop window, holding a twin-lens reflex camera (Rolleiflex style) up to her face, her reflection visible in the glass (double subject via reflection), calm focused expression, editorial film-noir mood, soft overcast daylight, realistic film grain, high contrast monochrome, shallow depth of field with background street blur, 35mm street photography framing, sharp focus on the woman and camera, clean composition, masterpiece, best quality, no cropping, full head in frame
Ultra-detailed cinematic black and white sports photo of one adult male boxer training in a gym, shirtless, muscular athletic build, wet sweaty skin with highlights, messy wet hair, intense focused stare, boxing guard up with gloves near face, standing close to a large heavy punching bag on the left side of the frame, gritty documentary mood, dramatic overhead gym lighting, high contrast monochrome, sharp focus on face and gloves, shallow depth of field, soft background blur, subtle film grain, professional sports photography, masterpiece, best quality, solo subject, one person only, head fully in frame, not cropped
Ultra-detailed cinematic sports photo of an international arm-wrestling competition between two adult male hypertrophic bodybuilders (one Caucasian, one Black), intense energy, extreme muscular effort, clenched jaws, focused eyes, sweat and skin shine, bulging forearms and biceps, powerful grip, right-hand arm wrestling only, both competitors gripping with their right hands, right elbows planted on the elbow pads, left arms not involved, official arm-wrestling table, referees hands visible in the background, national flags and event banners, arena crowd bokeh, dramatic stage spotlights, rim light + soft fill light, sharp focus on right hands and faces, high dynamic range, subtle film grain, professional sports photography, magazine editorial, masterpiece, best quality, two people only, both faces clearly visible, correct anatomy, no extra limbs, balanced composition, no cropping, full heads in frame
Ultra-detailed cinematic photo of a couple (one man and one woman, both adults), standing close together, gentle romantic vibe, natural affectionate body language, both faces clearly visible, correct anatomy, hands natural, consistent lighting on both subjects, in a rainy neon-lit street at night, holding hands, walking toward camera, reflections on wet asphalt, soft bokeh city lights, 35mm lens, shallow depth of field, soft natural light, realistic skin texture, sharp focus, high dynamic range, subtle film grain, professional photography, masterpiece, best quality, two people only, no third person, balanced composition, faces not cropped
Ultra-detailed cinematic night fashion editorial photo of one young adult woman leaning against a colorful graffiti wall, confident pose, slight hip pop, direct gaze, long wavy brown hair, large hoop earrings, bold blue/purple eyeshadow glam makeup, flawless but natural skin texture, shimmering iridescent sequin mini dress (blue–teal with purple highlights), long sleeves, nightclub neon ambiance, pink and purple neon lights reflecting on the dress, city street at night background, strong bokeh neon signs, shallow depth of field, sharp focus on face and outfit, high dynamic range, subtle film grain, professional fashion photography, magazine editorial, 50mm lens, f/1.8, masterpiece, best quality, solo subject, one person only, head fully in frame, not cropped
Ultra-detailed cinematic lifestyle photo of an elderly woman (70–85 years old) sitting on a green park bench in an autumn city street, short curly white hair, calm thoughtful expression looking slightly to the side, gray wool coat with a burgundy turtleneck sweater, hands gently clasped in her lap, fallen golden leaves on the ground and bench, European street café in the background with warm lights, soft urban atmosphere, shallow depth of field, creamy bokeh, natural color grading, realistic skin texture, sharp focus on face, high dynamic range, subtle film grain, professional photography, 85mm lens, f/1.8, masterpiece, best quality, head fully in frame, not cropped
Alla fine, il valore di un modello per un appassionato non è solo la qualità massima che può raggiungere in un caso fortunato, ma la qualità media che riesce a mantenere senza sforzo. È lì che la resa diventa esperienza d’uso, e l’esperienza d’uso è ciò che fa la differenza tra un modello che provi una settimana e un modello che tieni nella tua toolbox per mesi. Per quanto mi riguarda Z-Image Turbo si è già guadagnato un posto nella mia cassetta degli attrezzi. Non è precisissimo come può essere un Nano Banana Pro o un GPT Image, però è velocissimo e gira in locale con soli 8 GB di VRAM, cosa posso pretendere di più?
Se l’articolo ti è piaciuto restiamo in contatto su linkedin a https://www.linkedin.com/in/andreatonin/
ZImageTurbo #texttoimage #diffusionmodels #ComfyUI #workflow #textencoder #CLIP #UNet #VAE #CFG
Nerd per passione e per professione da oltre 30 anni, lavoro nel mondo dell’innovazione tecnologica come CTO e consulente, progettando ecosistemi software complessi e scalabili. Parallelamente mi dedico alla formazione informatica, condividendo esperienze e buone pratiche maturate sul campo.
Scopri di più sulla mia attività di consulenza su lucedigitale.com Mi trovi anche su LinkedIn


















