C’è un tipo di soddisfazione molto nerd nel vedere ComfyUI trasformare un’unica “character image” in una mini-serie di inquadrature già pronte: close-up per i dettagli, wide shot per il contesto, 45° per la presenza scenica, side view per leggere profilo e silhouette. Il bello del flusso che si vede nello screenshot è che non cerca l’effetto “wow” con mille fronzoli, ma punta a una cosa più utile (e più difficile), la ripetibilità e il controllo, soprattutto quando cambi punto di vista senza far “mutare” identità al soggetto.

Il flusso mostrato nello screenshot lavora come una piccola linea di produzione. Si parte da un’immagine del personaggio, si impone una regia diversa per ogni scatto e si ottengono output separati (close-up, wide shot, 45°, 90°, low angle, aerial).
L’aspetto interessante non è la quantità di nodi, ma la disciplina con cui vengono isolate le variabili. Qui non si sta “riscrivendo” il soggetto a ogni passaggio; si sta chiedendo al sistema di guardare la stessa persona da punti di vista diversi, senza trasformare la richiesta di camera in una richiesta di stile o di identità.
Load Character Image
Il primo snodo è il Load Character Image. In un workflow del genere, quell’immagine non è un semplice input decorativo, è l’ancora che riduce la deriva tra uno scatto e l’altro. Cambiare inquadratura significa introdurre nuove parti da ricostruire (porzioni di corpo, contesto, prospettiva, occlusioni), e ogni ricostruzione è un invito al modello a “inventare”. La presenza di una reference visiva non elimina la variabilità, ma la rende più ragionevole e, soprattutto, più coerente.
Qwen Image Edit Model and Loras Loader
Accanto a questo, nello screenshot compare un blocco di caricamento che espone MODEL / CLIP / VAE / LoRA. È il punto in cui si definisce la catena di interpretazione. Il modello (UNet) esegue il denoising e determina la struttura dell’immagine, il CLIP (o i text encoder) traduce il testo in conditioning, il VAE converte tra spazio latente e pixel, mentre le LoRA applicano una “curvatura” specifica alla base, di solito per stile o tratti ricorrenti. In un flusso multi-shot questo loader è il vero garante di coerenza, perché assicura che tutte le viste passino attraverso lo stesso set di componenti e non attraverso combinazioni diverse per errore o per sperimentazione non controllata.
Prompt per angolazione
La parte che, nello screenshot, fa davvero la differenza operativa è la batteria di nodi verdi etichettati come prompt per angolazione. Ciascun prompt contiene solo istruzioni di ripresa, non descrizioni identitarie del soggetto. È una scelta corretta quando l’identità arriva già dalla reference image e dalla pipeline. La gestione dei prompt, in questo caso, va letta come regia: “close-up”, “wide shot”, “45°”, “90°”, “low angle”, “aerial view” non dovrebbero diventare contenitori di desideri creativi che cambiano outfit, età apparente, stile o atmosfera. Il punto non è arricchire, ma rendere non ambigua la richiesta. In un contesto multi-output, l’ambiguità non produce creatività ma produce incoerenza tra scatti.
Generate
Il nodo Generate è il collettore che riceve la reference del personaggio, la catena MODEL/CLIP/VAE/LoRA e una serie di prompt “camera-centrici”, e restituisce immagini che poi vengono instradate verso diversi Save Image. Anche questo è un dettaglio meno banale di quanto sembri perché separare i salvataggi per inquadratura elimina il lavoro manuale di sorting e rende il flusso ripetibile. Quando si devono rigenerare solo alcuni scatti (per esempio perché il profilo è riuscito bene ma il wide shot no), questa struttura consente di intervenire senza ricostruire l’intera pipeline o senza perdersi in batch indistinti.
Allineamento
In un workflow multi-angolo l’allineamento non è un consiglio teorico, è un requisito pratico per ridurre comportamenti imprevedibili. L’UNet è ottimizzato e addestrato per ricevere un certo tipo di conditioning; quel conditioning dipende dal CLIP usato e da come il testo viene trasformato in embedding. Il VAE, dal canto suo, influenza la resa finale perché è la porta tra latenti e pixel, infatti cambiare VAE può cambiare saturazione, micro-dettaglio, “pulizia” delle texture, talvolta persino la percezione dei tratti del volto. Le LoRA, infine, sono modifiche calibrate su una base specifica che se vengono applicate a una base diversa da quella per cui sono state pensate (o a una famiglia modello diversa) possono introdurre drift selettivo: il close-up potrebbe apparire plausibile, mentre un wide shot spinge dettagli inventati o altera proporzioni e caratteristiche perché il condizionamento non si distribuisce in modo stabile su tutta l’immagine.
“Allineare” in pratica significa evitare incroci impropri tra famiglie e versioni, e mantenere coerenza tra i componenti che cooperano nella stessa generazione. Se ogni vista viene prodotta con lo stesso stack, l’unica differenza sistematica tra gli output resta l’istruzione di camera. È esattamente ciò che serve quando si vuole valutare un set di scatti come varianti registiche dello stesso soggetto, non come tentativi indipendenti.
Il risultato finale, quando il flusso è usato con questa disciplina, è una serie che somiglia a uno shooting fotografico con lo stesso personaggio ripreso in modi diversi, con una distribuzione di dettagli più stabile del normale. Il close-up diventa utile per verificare consistenza di volto e accessori, il 45° e il profilo aiutano a controllare silhouette e volume dei capelli, il wide shot serve a capire se la figura regge quando si vede intera, e le inquadrature dal basso o dall’alto rivelano subito quanto il modello tende a “barare” con proporzioni e prospettiva.
Di seguito la serie di scatti risultante da questo flusso.






Se l’articolo ti è piaciuto restiamo in contatto su linkedins a: https://www.linkedin.com/in/andreatonin/
#ComfyUI #StableDiffusion #workflow #prompting #cameraControl #characterConsistency #UNet #VAE #CLIP #LoRA #generativeAI
Nerd per passione e per professione da oltre 30 anni, lavoro nel mondo dell’innovazione tecnologica come CTO e consulente, progettando ecosistemi software complessi e scalabili. Parallelamente mi dedico alla formazione informatica, condividendo esperienze e buone pratiche maturate sul campo.
Scopri di più sulla mia attività di consulenza su lucedigitale.com Mi trovi anche su LinkedIn




















