Reinventa lo stile con ComfyUI (img-to-img)

Nel panorama della generazione di immagini con intelligenza artificiale, una delle tecniche più affascinanti e potenti è quella chiamata img-to-img. In parole semplici si parte da un’immagine esistente e, attraverso l’uso di modelli generativi come i diffusion model, si genera una nuova versione della stessa immagine, ma guidata da uno stile o una trasformazione definita da un prompt testuale. ComfyUI, uno degli strumenti più modulari e flessibili per la generazione AI-based, consente di gestire questo processo in modo trasparente e visivo, offrendo una comprensione chiara anche agli utenti alle prime armi.

Valenza artistica

L’img-to-img segna una vera e propria rivoluzione nell’ambito dell’arte visiva e digitale.
Non si tratta semplicemente di applicare un filtro o di modificare un’immagine esistente, il suo potere risiede nella capacità di reinterpretare un contenuto visivo, trasformandone profondamente lo stile, l’atmosfera o il significato, pur preservandone l’identità di base. È un atto di traduzione visiva, in cui l’intelligenza artificiale non cancella l’originale, ma lo trasporta in una nuova dimensione estetica.

Un disegno a fumetti può diventare una fotografia realistica, un volto stilizzato può assumere i tratti di una figura umana credibile, uno schizzo concettuale può generare una serie di variazioni utili alla progettazione di un personaggio, di un ambiente o di una scena narrativa. È possibile prendere un dipinto impressionista e reinterpretarlo come se fosse stato dipinto da un altro autore, mantenendo la composizione ma cambiando pennellata, palette e intensità emotiva. Il processo si presta anche alla costruzione di universi visivi coerenti, dove ogni variazione rafforza l’identità di un mondo immaginario, come nel worldbuilding applicato al cinema, al videogioco, al fumetto.

Ricordiamo sempre che l’AI non si propone come autrice, ma come strumento di esplorazione.
Permette all’umano di generare rapidamente alternative visive, di visualizzare suggestioni che altrimenti richiederebbero ore di lavoro manuale, di sperimentare con libertà ciò che prima era limitato da tempo, tecnica o mezzi. In questo dialogo tra intuizione umana e potenza computazionale, l’img-to-img si rivela non solo come una tecnica, ma come un’estensione creativa della mente, una finestra sulle infinite possibilità di trasformazione dell’immagine.

Valenza in produzione

L’img-to-img, pur affondando le radici nella creatività visiva, non appartiene solo al mondo dell’arte. È uno strumento estremamente efficace anche in ambito produttivo, dove la velocità, la coerenza visiva e la capacità di iterare rapidamente su una stessa idea rappresentano fattori chiave.

Nei settori del design, del marketing, della moda e della pubblicità, la possibilità di partire da un’immagine di base per generare varianti controllate ma differenziate costituisce un vantaggio competitivo concreto.
Immagina, ad esempio, di poter creare in pochi secondi diverse versioni di un prodotto, cambiandone il colore, i materiali o la texture, pur mantenendo invariata la forma, l’illuminazione e l’ambientazione. Oppure di aggiornare l’immagine coordinata di un brand, trasformando il logo o il personaggio mascotte in chiave moderna, senza perdere il legame visivo con l’originale.

Anche in fase progettuale, l’img-to-img apre nuove possibilità. È possibile simulare scenografie virtuali, proporre layout alternativi per un packaging ancora in sviluppo, o rielaborare fotografie esistenti per adattarle a diversi contesti editoriali, rendendole più stilizzate, concettuali o aderenti a una determinata campagna di comunicazione.

Ciò che prima richiedeva l’intervento coordinato di fotografi, grafici e illustratori, può oggi essere esplorato in pochi minuti, lasciando comunque spazio all’intervento umano per la rifinitura finale. In questo modo, l’intelligenza artificiale non sostituisce il lavoro creativo, ma ottimizza l’iterazione, accelera il processo decisionale e offre una nuova agilità visiva alle filiere della produzione creativa.

L’img-to-img è capace di coniugare qualità e velocità, senza sacrificare la coerenza stilistica o l’identità del brand.

Impostazioni in ComfyUI

Qui sotto possiamo vedere un flusso semplificato per utilizzare img-to-img

Focalizziamo la nostra attenzione sul ramo del flusso specifico img-to-img

Il primo passo di un processo img-to-img in ComfyUI comincia sempre da un’immagine. Può essere un disegno, una foto, un render o un’illustrazione, non importa il contenuto, ma il fatto che sia visivamente leggibile e semanticamente significativa. Nel flusso, il punto di partenza è il nodo Load Image, che ha il compito di introdurre l’immagine di origine all’interno del sistema. È come mettere un foglio su un tavolo da disegno, è su quello che l’intelligenza artificiale inizierà a lavorare.

Una volta caricata, l’immagine non può essere elaborata così com’è. Deve essere preparata, resa “digeribile” dal sistema. E qui entra in gioco il nodo ImageScaleToTotalPixels. Questo passaggio non è banale, le immagini possono avere dimensioni troppo grandi, troppo piccole, o formati che mal si adattano ai modelli generativi. Il ridimensionamento agisce quindi come una sorta di filtro di armonizzazione che adatta le proporzioni, imposta una densità di pixel adatta all’elaborazione (in questo caso 1 megapixel), e lo fa con un metodo preciso che evita sfocature o distorsioni, mantenendo nitidi i contorni e le forme originali.

A questo punto, l’immagine è ancora visibile e interpretabile dall’occhio umano, ma non è ancora pronta per la fase generativa vera e propria. Serve un’ulteriore trasformazione, la traduzione nello spazio latente, ovvero quel linguaggio matematico che i modelli di diffusione sanno leggere e manipolare. Questo è il compito del nodo VAE Encode, che prende l’immagine scalata e la comprime in una rappresentazione astratta, fatta non più di pixel ma di vettori, forme, volumi e possibilità. È come se l’immagine venisse scomposta nei suoi significati profondi, pronta a essere riscritta, reinterpretata, guidata da ciò che verrà specificato nei prompt testuali.

Questa prima sezione del flusso, apparentemente semplice, è in realtà fondamentale, perché tutto ciò che avverrà dopo dipenderà dalla qualità e dalla coerenza di questa preparazione iniziale. È qui che si gettano le basi per una trasformazione efficace, sia che si voglia ottenere un volto realistico da un disegno cartoon, sia che si intenda mantenere una composizione visiva e cambiarne solo lo stile.

In altre parole, prima ancora che l’intelligenza artificiale inizi a “creare”, deve ascoltare e comprendere l’immagine che gli stiamo dando. Ed è proprio questo che accade in questi primi nodi, un ascolto profondo e silenzioso, dove l’immagine si prepara a parlare un nuovo linguaggio.

Altri parametri consigliati

Nel flusso andranno considerati anche altri parametri

KSampler | denoise: 0.65–0.75 → abbastanza alto da permettere il cambio di stile, ma non troppo da perdere i tratti chiave (espressione, pose).
KSampler |steps: 25 → regola quanto tempo ha il modello per lavorare, abbastanza per ottenere immagini coerenti e dettagliate, ma senza appesantire il processo.
KSampler |cfg: 7–8 → controlla quanto il modello deve seguire il prompt testuale che gli stai dando, permette al modello di rispettare lo stile e i contenuti suggeriti, come “realistico”, “cinematico” o “trucco da clown”, ma allo stesso tempo lascia una certa flessibilità creativa per adattare il risultato in modo armonico con l’immagine di partenza.
DualCLIPLoader | utilizzare un modello adeguato allo scopo ad esempio realistico, comix, anime etc…

Un altro elemento fondamentale è la presenza sia del prompt positivo che quello negativo, il prompt positivo descriverà il nuovo stile, il negativo rimuoverà il vecchio stile o stili indesiderati. Ovviamente bisogna porre una particolare attenzione a non creare contraddizioni (rumore) tra i due.

Utilizzerò questa immagine nello slot Load Image

Plaintext

PROMPT POSITIVO (descrive il nuovo stile)
a hyper-muscular man with clown makeup, realistic skin texture, intense cinematic lighting, photorealistic style, high detail, real human face, dramatic shadows, glossy paint on face, black/white
--
PROMPT NEGATIVO (rimuove lo stile originale)
cartoon, drawing, comic, 3d render, low detail, blurry, extra limbs, distorted anatomy

PROMPT POSITIVO (descrive il nuovo stile)
a hyper-muscular man with clown makeup, realistic skin texture, intense cinematic lighting, photorealistic style, high detail, real human face, dramatic shadows, glossy paint on face, black/white
--
PROMPT NEGATIVO (rimuove lo stile originale)
cartoon, drawing, comic, 3d render, low detail, blurry, extra limbs, distorted anatomy

Ecco il risultato finale! Creepy!

L’img-to-img non è solo una tecnica ma è un invito a immaginare diversamente.
È la possibilità di partire da qualcosa che già esiste e lasciarlo fluire attraverso il filtro creativo dell’intelligenza artificiale, per vederlo rinascere con nuovi colori, texture, stili e intenzioni. Sperimenta senza paura. Prova combinazioni improbabili. Fallisci con curiosità. Perché è proprio lì, tra un’immagine non riuscita e una trasformazione inattesa, che spesso si nasconde la vera scintilla creativa.

ComfyUI ti offre la tela.
L’AI, il pennello.
Ma l’idea, quella… resta tua.

Se ti è piaciuto l’articolo restiamo in contatto su linkedin a https://www.linkedin.com/in/andreatonin/

Andrea Tonin

Nerd per passione e per professione da oltre 30 anni, lavoro nel mondo dell’innovazione tecnologica come CTO e consulente, progettando ecosistemi software complessi e scalabili. Parallelamente mi dedico alla formazione informatica, condividendo esperienze e buone pratiche maturate sul campo.
Scopri di più sulla mia attività di consulenza su lucedigitale.com Mi trovi anche su LinkedIn