ComfyUI: un personaggio, molte inquadrature

Image

ComfyUI: un personaggio, molte inquadrature

C’è un tipo di soddisfazione molto nerd nel vedere ComfyUI trasformare un’unica “character image” in una mini-serie di inquadrature già pronte: close-up per i dettagli, wide shot per il contesto, 45° per la presenza scenica, side view per leggere profilo e silhouette. Il bello del flusso che si vede nello screenshot è che non cerca l’effetto “wow” con mille fronzoli, ma punta a una cosa più utile (e più difficile), la ripetibilità e il controllo, soprattutto quando cambi punto di vista senza far “mutare” identità al soggetto.

Il flusso mostrato nello screenshot lavora come una piccola linea di produzione. Si parte da un’immagine del personaggio, si impone una regia diversa per ogni scatto e si ottengono output separati (close-up, wide shot, 45°, 90°, low angle, aerial).

L’aspetto interessante non è la quantità di nodi, ma la disciplina con cui vengono isolate le variabili. Qui non si sta “riscrivendo” il soggetto a ogni passaggio; si sta chiedendo al sistema di guardare la stessa persona da punti di vista diversi, senza trasformare la richiesta di camera in una richiesta di stile o di identità.

Load Character Image

Il primo snodo è il Load Character Image. In un workflow del genere, quell’immagine non è un semplice input decorativo, è l’ancora che riduce la deriva tra uno scatto e l’altro. Cambiare inquadratura significa introdurre nuove parti da ricostruire (porzioni di corpo, contesto, prospettiva, occlusioni), e ogni ricostruzione è un invito al modello a “inventare”. La presenza di una reference visiva non elimina la variabilità, ma la rende più ragionevole e, soprattutto, più coerente.

Qwen Image Edit Model and Loras Loader

Accanto a questo, nello screenshot compare un blocco di caricamento che espone MODEL / CLIP / VAE / LoRA. È il punto in cui si definisce la catena di interpretazione. Il modello (UNet) esegue il denoising e determina la struttura dell’immagine, il CLIP (o i text encoder) traduce il testo in conditioning, il VAE converte tra spazio latente e pixel, mentre le LoRA applicano una “curvatura” specifica alla base, di solito per stile o tratti ricorrenti. In un flusso multi-shot questo loader è il vero garante di coerenza, perché assicura che tutte le viste passino attraverso lo stesso set di componenti e non attraverso combinazioni diverse per errore o per sperimentazione non controllata.

Prompt per angolazione

La parte che, nello screenshot, fa davvero la differenza operativa è la batteria di nodi verdi etichettati come prompt per angolazione. Ciascun prompt contiene solo istruzioni di ripresa, non descrizioni identitarie del soggetto. È una scelta corretta quando l’identità arriva già dalla reference image e dalla pipeline. La gestione dei prompt, in questo caso, va letta come regia: “close-up”, “wide shot”, “45°”, “90°”, “low angle”, “aerial view” non dovrebbero diventare contenitori di desideri creativi che cambiano outfit, età apparente, stile o atmosfera. Il punto non è arricchire, ma rendere non ambigua la richiesta. In un contesto multi-output, l’ambiguità non produce creatività ma produce incoerenza tra scatti.

Generate

Il nodo Generate è il collettore che riceve la reference del personaggio, la catena MODEL/CLIP/VAE/LoRA e una serie di prompt “camera-centrici”, e restituisce immagini che poi vengono instradate verso diversi Save Image. Anche questo è un dettaglio meno banale di quanto sembri perché separare i salvataggi per inquadratura elimina il lavoro manuale di sorting e rende il flusso ripetibile. Quando si devono rigenerare solo alcuni scatti (per esempio perché il profilo è riuscito bene ma il wide shot no), questa struttura consente di intervenire senza ricostruire l’intera pipeline o senza perdersi in batch indistinti.

Allineamento

In un workflow multi-angolo l’allineamento non è un consiglio teorico, è un requisito pratico per ridurre comportamenti imprevedibili. L’UNet è ottimizzato e addestrato per ricevere un certo tipo di conditioning; quel conditioning dipende dal CLIP usato e da come il testo viene trasformato in embedding. Il VAE, dal canto suo, influenza la resa finale perché è la porta tra latenti e pixel, infatti cambiare VAE può cambiare saturazione, micro-dettaglio, “pulizia” delle texture, talvolta persino la percezione dei tratti del volto. Le LoRA, infine, sono modifiche calibrate su una base specifica che se vengono applicate a una base diversa da quella per cui sono state pensate (o a una famiglia modello diversa) possono introdurre drift selettivo: il close-up potrebbe apparire plausibile, mentre un wide shot spinge dettagli inventati o altera proporzioni e caratteristiche perché il condizionamento non si distribuisce in modo stabile su tutta l’immagine.

“Allineare” in pratica significa evitare incroci impropri tra famiglie e versioni, e mantenere coerenza tra i componenti che cooperano nella stessa generazione. Se ogni vista viene prodotta con lo stesso stack, l’unica differenza sistematica tra gli output resta l’istruzione di camera. È esattamente ciò che serve quando si vuole valutare un set di scatti come varianti registiche dello stesso soggetto, non come tentativi indipendenti.

Il risultato finale, quando il flusso è usato con questa disciplina, è una serie che somiglia a uno shooting fotografico con lo stesso personaggio ripreso in modi diversi, con una distribuzione di dettagli più stabile del normale. Il close-up diventa utile per verificare consistenza di volto e accessori, il 45° e il profilo aiutano a controllare silhouette e volume dei capelli, il wide shot serve a capire se la figura regge quando si vede intera, e le inquadrature dal basso o dall’alto rivelano subito quanto il modello tende a “barare” con proporzioni e prospettiva.

Di seguito la serie di scatti risultante da questo flusso.

Se l’articolo ti è piaciuto restiamo in contatto su linkedins a: https://www.linkedin.com/in/andreatonin/

#ComfyUI #StableDiffusion #workflow #prompting #cameraControl #characterConsistency #UNet #VAE #CLIP #LoRA #generativeAI

Banner

Releated Posts

ComfyUI – Reference Conditioning

In ComfyUI (soprattutto con modelli come Flux) il Reference Conditioning è un nodo che permette di usare una…

DiByAndrea Tonin Apr 9, 2026

ComfyUI per generare anime: NewBie Image Exp0.1

NewBie Image (spesso indicato come NewBie-image-Exp0.1) è un modello text-to-image in stile anime/ACG pensato per generare illustrazioni con…

DiByAndrea Tonin Apr 9, 2026

Comfy UI: OpenPose

Quando si parla di “OpenPose” in giro per ComfyUI, spesso si intende una cosa molto concreta: prendere una…

DiByAndrea Tonin Apr 9, 2026

L’AI in Cooperativa come scelta organizzativa

Negli ultimi mesi sono stato molto impegnato con docenze in cooperative anche molto diverse tra loro. In aula…

DiByAndrea Tonin Apr 9, 2026