In ComfyUI (soprattutto con modelli come Flux) il Reference Conditioning è un nodo che permette di usare una o più immagini come guida visiva per la generazione. In pratica dice al modello: “usa queste caratteristiche dell’immagine mentre generi la nuova immagine.” Questo è un articolo riservato ad un pubblico già tecnico, quindi darò per scontato una conoscenza di base di ComfyUI da parte del lettore.. diamo fiato alle trombe senza troppi preamboli. Esaminiamo un flusso text-to-img + img-to-img, è linkato allo screenshot originale, vi consiglio di aprirlo in un’altra TAB per riuscire a leggerne il contenuto.
Apriamo il Subgraph del ramo img-to-img, il secondo im basso per capirci meglio.
Voglio attirare la vostra attenzione sul nodo Reference Conditioning. Il nodo prende: il conditioning del prompt (testo già codificato da CLIP), un’immagine di riferimento, il VAE e trasforma l’immagine in informazione latente che viene aggiunta al conditioning. Quindi il modello riceve due tipi di guida: testo → cosa generare, immagine reference → come deve apparire. Semplifichiamo con uno schema:
Prompt → CLIP encode
↓
Reference Conditioning ← reference image
↓
CFG Guider
↓
SamplerUna reference può influenzare:
- stile visivo
- palette colori
- lighting
- composizione
- abbigliamento
- texture
- identità del soggetto (in parte)
Non è un copia-incolla dell’immagine, ma una guida statistica. Vediamo la differenza con altri metodi utilizzabili in ComfyUI.
| Metodo | Cosa guida |
|---|---|
| Prompt | concetto |
| Reference Conditioning | caratteristiche visive |
| ControlNet | struttura precisa |
| IPAdapter | stile/identità forte |
Reference Conditioning in cascata
Possiamo usare più di una immagine per gestire il risultato finale della generazione inserendo in cascate più Reference Conditioning come nell’esempio rappresentato nello screenshot.

Prompt
↓
Reference 1
↓
Reference 2
↓
SamplerNon esiste un vero limite rigido nel workflow. Possiamo replicare per quante immagini vogliamo, ma nella pratica: 2–4 immagini funzionano molto bene, 4–8 immagini sono ancora gestibili ma con beneficio decrescente nel caso i un valore i >8 immagini spesso peggiora la coerenza o aumenta molto il consumo di VRAM.
| Reference | VRAM stimata |
|---|---|
| 1 | +0.2–0.3 GB |
| 2 | +0.4–0.6 GB |
| 4 | +1 GB circa |
| 8 | +2 GB circa |
Vi consiglio di utilizzare un flusso pulito come il seguente:
Prompt conditioning
↓
Reference Conditioning (img1) identità soggetto
↓
Reference Conditioning (img2) outfit / oggetto
↓
Reference Conditioning (img3) stile
↓
Reference Conditioning (img4) composizione / lighting
↓
CFGGuiderPer mostrare la possibilità combinatoria con molte reference, lo schema in parallelo separa le immagini in rami indipendenti e poi unisce il conditioning prima del CFG.
┌─ Reference Conditioning (img1 - identità)
│
├─ Reference Conditioning (img2 - identità 2)
│
Prompt conditioning ── split
│
├─ Reference Conditioning (img3 - outfit)
│
├─ Reference Conditioning (img4 - oggetto)
│
├─ Reference Conditioning (img5 - stile)
│
├─ Reference Conditioning (img6 - palette colore)
│
├─ Reference Conditioning (img7 - composizione)
│
└─ Reference Conditioning (img8 - lighting)
↓
Conditioning Combine
↓
CFGGuider
↓
Sampler
↓
VAE DecodeBuona sperimentazione!
Se l’articolo ti è piaciuto restiamo in contatto su linkedin a: https://www.linkedin.com/in/andreatonin/
Nerd per passione e per professione da oltre 30 anni, lavoro nel mondo dell’innovazione tecnologica come CTO e consulente, progettando ecosistemi software complessi e scalabili. Parallelamente mi dedico alla formazione informatica, condividendo esperienze e buone pratiche maturate sul campo.
Scopri di più sulla mia attività di consulenza su lucedigitale.com Mi trovi anche su LinkedIn





















