Come “ragiona” un Diffusion Model

Se hai provato a generare un’immagine con un prompt e ti sei chiesto “ok, ma cosa sta succedendo davvero dietro le quinte?”, i diffusion model sono una risposta sorprendentemente concreta. Non “immaginano” come un artista umano e non “copiano e incollano” una foto da qualche archivio. Fanno una cosa molto più particolare: partono da caos puro e imparano a riportarlo lentamente verso una forma credibile, guidati dal testo e da ciò che hanno imparato guardando milioni di immagini.

L’idea chiave è questa: un diffusion model è un sistema che sa trasformare il rumore in immagine, un passo alla volta, come se facesse emergere un soggetto da una nebbia granulosa. E lo fa perché, durante l’addestramento, ha imparato il contrario: come si può “rovinare” un’immagine aggiungendo rumore progressivamente, fino a renderla quasi irriconoscibile. Una volta imparato quel processo, il modello impara anche la via inversa: togliere rumore nel modo giusto.

Immagina di avere una foto nitida. Se ci metti sopra rumore, poco alla volta, dopo tanti passaggi ti ritrovi con una distesa di puntini casuali, come una TV senza segnale. Il training di un diffusion model prende un’enorme collezione di immagini e fa proprio questo: le degrada in tanti step. A quel punto, il modello viene addestrato a rispondere a una domanda precisa: “dato questo fotogramma rovinato e sapendo a che punto del processo siamo, qual è la parte di rumore che devo togliere per tornare indietro?”. Ripetendo questa esercitazione su milioni di esempi, il modello diventa bravo a riconoscere le strutture statistiche tipiche delle immagini: bordi, texture, luci, materiali, proporzioni, e anche stili visivi ricorrenti.

Quando poi tu generi un’immagine, succede la magia al contrario. Non si parte da una tela bianca, si parte da rumore. Quella scelta non è solo poetica: è un modo pratico per far sì che ogni generazione sia un punto di partenza neutro, senza pregiudizi visivi specifici. Da lì, il modello fa una serie di piccoli passi di “denoising” (togliere rumore) e a ogni passo cerca di rendere il caos un po’ più simile a un’immagine plausibile. All’inizio appaiono masse e composizione, poi si definiscono forme, poi materiali e dettagli, e infine i micro-contrasti e le finiture.

A questo punto entra in scena il testo. Se tu scrivi “ritratto fotografico di una donna con luce Rembrandt”, il modello deve capire due cose: cosa significa quel testo e come usarlo per guidare i passi di denoising. Per farlo, quasi sempre si usa un componente che trasforma le parole in un “segnale” numerico: non è una traduzione parola per parola, è un modo per rappresentare il significato in uno spazio dove concetti simili stanno vicini. “Ritratto” è più vicino a “primo piano” che a “paesaggio”, “luce morbida” sta più vicina a “diffusa” che a “controluce duro”, e così via. Questo non rende il modello “consapevole”, ma gli dà una bussola.

Durante la generazione, a ogni step il modello non decide solo “come togliere rumore” in astratto, ma “come togliere rumore in modo coerente con quello che mi hai chiesto”. È come se, ad ogni passaggio, qualcuno sussurrasse: “più ritratto, meno paesaggio”, “più luce Rembrandt”, “meno cartoon”. Questo meccanismo di guida è spesso chiamato “conditioning” (condizionamento). In pratica, il testo influenza la traiettoria: invece di qualsiasi immagine possibile, il processo converge verso una famiglia di immagini compatibili con le parole.

Molti modelli moderni non lavorano direttamente sui pixel dell’immagine finale, perché sarebbe lento e pesante. Lavorano in uno spazio più compatto chiamato “latente”. È come se l’immagine venisse compressa in una rappresentazione più piccola, dove contano soprattutto struttura e contenuto visivo, non ogni singolo pixel. Il diffusion avviene lì, in questo “spazio latente”, e solo alla fine un decoder riporta tutto in una vera immagine ad alta risoluzione. Per un grafico è un concetto utile: significa che una parte del processo ragiona in modo più “concettuale” (forme e relazioni) e la fase finale ricostruisce la resa visiva.

Quando si dice “spazio latente” si intende, in pratica, uno spazio fatto di numeri. Ogni immagine viene trasformata in un vettore, cioè una lista di valori tipo:

$z = [0.12,\,-0.77,\,1.34,\,…]$

Quella è la “posizione” dell’oggetto nello spazio latente. La cosa importante è che quasi mai i singoli numeri hanno un significato leggibile (“questo numero è il naso”) ma quello che conta è la posizione complessiva e le distanze tra vettori.

Nel grafico seguente si vede come l’immagine viene presa e trasformata in un vettore ad alta dimensione, per poi divenire una coordinata in uno spazio enorme a 768 dimensioni:
$e \in \mathbb{R}^{768}$ (e è un vettore di 768 numeri reali)

Infine la rappresentazione multidimensionale viene schiacciata in 2D, cioè trasformata da 768 numeri a 2 numeri (x,y) ad oggetto per poterla visualizzare.

E i dettagli strani? Mani con sei dita, scritte indecifrabili, loghi che sembrano quasi giusti ma non lo sono. Questi difetti non arrivano perché il modello “non sa disegnare”, ma perché le immagini contengono regolarità diverse. Le mani sono difficili perché hanno tante configurazioni possibili, dita che si sovrappongono, prospettive estreme, e in più nelle foto spesso sono mosse o parzialmente nascoste.

Il testo nelle immagini è ancora più delicato perché un diffusion model non nasce per “scrivere” come un font, nasce per generare pattern visivi che assomigliano a testo. Il risultato è spesso una specie di calligrafia plausibile, ma non semanticamente corretta. Quando vedi lettere quasi sensate, stai guardando il modello che imita l’aspetto del testo, non il suo contenuto.

Un altro punto che confonde, la questione dello stile. A volte basta scrivere “in stile X” e tutto si trasforma. Questo succede perché il modello ha imparato correlazioni tra certe parole e certe scelte visive (palette, pennellate, grana, composizione, tipo di luce). Per un creativo è importante ricordare che non è una “libreria di filtri”, è una rete di associazioni. Lo stile non è un livello separato ma è distribuito dentro tante decisioni piccole, in tanti step. Per questo lo stesso prompt, cambiando una parola, può spostare la resa in modo drastico.

Poi c’è la casualità. Ogni generazione inizia da rumore quindi se cambi il seme (seed), cambi il rumore iniziale e quindi l’intero percorso. È un po’ come dare lo stesso brief a dieci illustratori, la direzione è simile, ma le soluzioni cambiano. Se invece tieni fisso il seed e cambi solo una parte del prompt, ottieni variazioni più “controllate”, perché stai perturbando una sola parte della guida, non l’intera nascita dell’immagine.

Se lavori con grafica e layout, c’è un modo utile per pensare a ciò che il diffusion fa bene e a ciò che fa male. Fa bene quando il problema è “fammi un’immagine plausibile con questi ingredienti estetici”, soprattutto per atmosfere, luci, materiali, mood, scene, concept. Fa peggio quando serve precisione simbolica: testo leggibile, proporzioni tecniche, marchi esatti, elementi ripetuti con coerenza perfetta tra più immagini. Non perché sia “scarso”, ma perché la sua natura è probabilistica. Punta alla verosimiglianza, non alla correttezza formale. Quando vuoi controllo, entrano in gioco strumenti di guida più vincolanti (reference, maschere, inpainting, controlli di posa o struttura) che di fatto riducono lo spazio delle possibilità.

Una domanda che arriva sempre: “quindi ha capito davvero cosa sia una mela?”. Dipende da cosa intendi per “capire”. Un diffusion model non ha esperienza del mondo, non assaggia, non tocca, non vive. Però ha visto talmente tante mele in foto, illustrazioni, still life e pubblicità da aver costruito una rappresentazione robusta di come appaiono in contesti diversi. Sa che una mela ha certe superfici, certi riflessi, certe ombre, certe associazioni con tavoli, cesti, foglie, tagli. È un “capire” visivo-statistico, che spesso basta per produrre un’immagine convincente.

L’AI non sostituisce l’occhio, semmai lo mette alla prova, ti costringe a chiarire cosa vuoi davvero, quali vincoli sono essenziali e quali sono negoziabili. Ti spinge a ragionare in termini di direzione artistica, non solo di esecuzione. E fa emergere una competenza nuova, saper dialogare con un sistema che non ragiona per regole, ma per probabilità. Quando il risultato è “quasi giusto”, spesso non serve chiedere “perché sbaglia?”, ma “quale parte del brief ho lasciato vaga?” oppure “quale vincolo non ho reso esplicito?”.

Un diffusion model è come un processo di sviluppo fotografico al contrario, ma al posto della pellicola c’è rumore, e al posto dei chimici c’è un modello che ha imparato, da una montagna di esempi, quali forme e texture hanno senso. Il prompt non è un comando magico, è un timone. Il resto lo fa il viaggio step dopo step, dal caos a qualcosa che sembra nato con intenzione.

#concetti chiave: #rumore #denoising #addestramento #spazioLatente #condizionamentoTesto #prompt #seed #coerenzaVisiva #limitiDelTesto #stile

Se l’articolo ti è piaciuto restiamo in contatto su linkedid a: https://www.linkedin.com/in/andreatonin/

Andrea Tonin

Nerd per passione e per professione da oltre 30 anni, lavoro nel mondo dell’innovazione tecnologica come CTO e consulente, progettando ecosistemi software complessi e scalabili. Parallelamente mi dedico alla formazione informatica, condividendo esperienze e buone pratiche maturate sul campo.
Scopri di più sulla mia attività di consulenza su lucedigitale.com Mi trovi anche su LinkedIn