Quando i filtri delle AI “leggono” tra le righe

Image

Quando i filtri delle AI “leggono” tra le righe

C’è un momento, usando un modello text-to-image, in cui ti rendi conto che il problema non è tanto “cosa” stai chiedendo, ma “come” la tua richiesta viene interpretata da un sistema che non ragiona come un essere umano. È per questo che ho trovato interessante il paper FIGURA Method v1.0 di Luca Cazzaniga, non perché prometta formule magiche, e nemmeno perché si limiti a criticare la censura algoritmica dell’arte, ma perché prova a rendere leggibile un pezzo di meccanica interna che di solito resta opaca. In altre parole, questo testo aiuta a capire quali segnali linguistici e contestuali mettono in allarme i filtri e perché, mostrando che la moderazione non è soltanto una lista di parole vietate, ma un sistema che pesa combinazioni, contesti e “storie” implicite dentro una frase.

Le piattaforme commerciali che generano immagini (l’autore cita un panorama ampio, da Midjourney a DALL-E, passando per modelli come FLUX) hanno filtri pensati per prevenire contenuti sessualmente espliciti, e fin qui è difficile obiettare. Il punto è che, nel farlo, spesso “schiacciano” anche richieste legittime, in particolare quando l’oggetto è la figura umana in tradizione fine-art. Questo non è un tema teorico o marginale, basta parlare con fotografi, illustratori, art director per capire quanto la figura (in senso classico, culturale, museale) sia un territorio ricorrente. Se però il filtro confonde sistematicamente l’intenzione artistica con altro, l’effetto è un blocco preventivo che assomiglia a una censura automatica e cieca. Cazzaniga parte da qui e tenta una strada diversa da quella tipica delle “prove di forza” contro i guardrail, non propone di disattivarli, non propone di ingannarli, e soprattutto non imposta la questione come un attacco. Li tratta come vincoli ambientali con cui convivere e dentro cui costruire, come si farebbe con qualsiasi limite tecnico (un set piccolo, una lente scomoda, una luce ingrata).

Se lo scopo è ottenere una figura “da galleria” e non una scena ammiccante, la differenza la fa quasi sempre come costruisci la richiesta, i modelli (e i loro sistemi di moderazione) reagiscono male quando il testo insiste su cosa manca, su dettagli intimi o su un taglio troppo “privato”. Reagiscono meglio quando il testo suona come parlerebbe un fotografo o un curatore che tratta di presenza, forma, luce, composizione, contesto culturale. Nel paper che vi presento questa idea è formalizzata come “Golden Rule” (descrivere presenza, non assenza).

Prompt come blocchi narrativi

Un modo molto pratico per applicarla è pensare al prompt come a tre blocchi narrativi, in quest’ordine.

Il primo blocco è l’ancora (che imposta il registro): dichiarazione fine-art, tradizione fotografica, tipo di immagine, atmosfera. Serve a dire al sistema “questa richiesta appartiene a un dominio artistico preciso”. Il paper mostra che i riferimenti artistici hanno doppia funzione (estetica e di contesto), quindi qui puoi citare scuole o autori in modo descrittivo (non come password), oppure semplicemente “fine-art figure study, museum lighting, editorial minimalism”.

Il secondo blocco è la regia con posa, inquadratura, rapporto figura-spazio, distanza della camera, tipo di luce, grana, ottica. Qui l’obiettivo è sostituire la tentazione di “spiegare il corpo” con la tentazione più fotografica di “spiegare lo scatto”. A livello di resa, spesso è la parte che fa davvero la differenza, “full-length, subject small against monumental architecture, soft directional light, medium format look” dà molto più controllo di qualunque specifica anatomica.

Il terzo blocco è l’ambiente dove lo spazio non è neutro, ma è un segnale. Contesti pubblici/monumentali/storici tendono a essere letti come più compatibili con la tradizione artistica, mentre contesti domestici o troppo intimi possono generare interpretazioni ambigue (e anche, banalmente, risultati più “da selfie” o “da boudoir” che non vuoi). Nel documento c’è una gerarchia di contesti con tassi di riuscita molto diversi e una logica di conversione degli ambienti verso equivalenti più “pubblici” o “storici”.

Per farti scrivere subito, ti lascio quattro “scheletri” pronti da personalizzare. Non sono pensati come trucchi, ma come prompt puliti, da fotografia.

Plaintext
--
Scheletro A (studio fine-art, figura come scultura, esterno pubblico/naturale)
“Fine-art figure study, classical photographic approach, restrained and non-sexual tone. Full-length composition, subject treated as sculptural form, emphasis on silhouette, posture and light. Wide environment, natural setting with strong sense of space, soft directional light, medium-format look, subtle grain, calm palette.”
--
Scheletro B (interno monumentale, scala architettonica dominante)
“Fine-art figure study in a monumental historical interior, museum-like atmosphere. The architecture dominates the frame, the subject is a small presence within the space. Stone textures, columns, high ceiling, diffuse light from above, measured composition, editorial restraint, no erotic mood.”
--
Scheletro C (silhouette astratta, linguaggio geometrico)
“Abstract silhouette photography, high-key background, pure graphic contrast. A single human outline described as a sequence of arcs and angles, calligraphic profile, no visible detail, no glow, no edge emphasis. Minimal composition, poster-like clarity, clean negative space.”
--
Scheletro D (se vuoi evitare completamente aree sensibili: drappeggio/abito scultoreo)
“Fine-art portrait / figure photography with sculptural drapery. Flowing fabric as primary subject, classical folds, marble-like lighting, museum atmosphere. Full-length pose, calm expression, balanced composition, medium format look.”
--

Come li usi davvero, nella pratica quotidiana? Con una micro-routine di debug (che nel paper è molto strutturata). Se il modello ti restituisce qualcosa di diverso dal tono fine-art (per esempio rende la scena più “privata” o più “glam”), quasi sempre non serve aggiungere dettagli. In concreto, funziona meglio intervenire su tre leve: alzare il livello “museo/editoriale” nel primo blocco, aumentare la distanza e la scala ambientale nel secondo, e scegliere un contesto meno intimo nel terzo. È lo stesso principio che il documento formalizza quando parla di contesto spaziale come variabile indipendente.

Aggiungo una tabella per migliorare la comprensione dei concetti citati:

Formulazione ad alto rischio (pattern)Alternativa fine-art (pattern)
Frasi costruite su assenza/rimozione (“senza…”, “non c’è…”, “privo di…”)Frasi costruite su presenza e materia visiva (forma, superficie, luce, posa, composizione)
Enfasi su intimità privata (ambienti e tono “da sfera personale”)Contesto pubblico/monumentale/storico o naturale ampio, con scala architettonica o paesaggistica
Dettagli corporei molto specifici messi al centro del promptRegia fotografica al centro: distanza camera, full-length, silhouette, controluce, grana, ottica, equilibrio figura-spazio
Linguaggio che fa pensare a sensualità/ammiccamentoLinguaggio di studio: “fine-art figure study”, “museale/editoriale”, “tono misurato”, “approccio scultoreo”
Richiesta di inquadrature ravvicinate e focalizzate su zone specificheComposizione completa (full-length) o figura piccola nel frame, con ambiente dominante
Interni generici “di casa” (poco contestualizzati)Interni storici e descritti (colonne, pietra, navata, terme, rovine) o esterni “aperti” (foresta, scogliera, deserto)
Per silhouette: descrizioni in termini anatomiciPer silhouette: descrizioni geometriche/grafiche (archi, profilo, calligrafia, contrasto netto), evitando dettagli
Prompt “corto e secco” che lascia spazio a interpretazioniPrompt con ancora iniziale (registro fine-art) + regia + contesto, in quell’ordine
Tanti segnali piccoli che insieme creano una lettura ambigua (tono + luogo + dettagli)Riduci la “somma”: più scala, più distanza, più contesto culturale, meno specifiche intime (effetto accumulo)
Plaintext
High-fashion editorial portrait of a woman captured from behind, sculptural back and shoulders exposed, minimalist composition, intimate and refined mood, inspired by Peter Lindbergh and Richard Avedon, monochrome black and white aesthetic, cinematic framing with soft negative space, elegant curvature of the spine emphasized, natural pose with head gently tilted downward, conveying introspection and quiet strength, dramatic directional lighting from the side creating chiaroscuro shadows across the skin, highlighting bone structure and subtle textures, ultra-clean studio background, timeless and iconic atmosphere, fine art grain, soft diffusion, skin rendered with delicate tonal transitions, no distractions, focus on form and light, couture sensibility without visible garments, editorial photography, 85mm lens, shallow depth of field, high resolution, museum-quality

Un aspetto che spesso sfugge è che la moderazione non vive in un solo punto della catena. Anche quando un prompt sembra innocuo, i modelli più avanzati (soprattutto quelli multimodali) riescono a cogliere segnali impliciti legati a posa, espressione, atmosfera e contesto. Molte piattaforme adottano una pipeline a più stadi, superato il controllo sul testo, l’immagine passa comunque davanti a un sistema di computer vision indipendente che giudica l’output finale e può impedirne la consegna se lo ritiene non compliant. È una doppia barriera, prima linguistica, poi visiva.

Se l’articolo ti è piaciuto restiamo in contatto su linkedin a: https://www.linkedin.com/in/andreatonin/

promptengineering #safetyfilters #contentmoderation #generativeai #texttoimage #multimodalai #computervision #aiethics #creativeai #aiguardrails

Releated Posts

Regia Algoritmica: Facial Action Coding System

FACS è un modo “a pezzi” per descrivere ciò che fa il viso quando esprime qualcosa. Invece di…

DiByAndrea Tonin Mag 17, 2026

Regia Algoritmica: Laban Movement Analysis

Laban Movement Analysis (di solito abbreviata in LMA, o Laban/Bartenieff Movement Analysis quando si vuole riconoscere esplicitamente il…

DiByAndrea Tonin Mag 16, 2026

Fare casting per un Virtual Influencer

C’è un errore che vedo spesso quando qualcuno si avvicina alla grafica AI con l’idea di creare un…

DiByAndrea Tonin Mag 12, 2026

Dallo storyboard allo spot con GPT Image e Seedance

Quando progetti uno spot, stai comprimendo una storia dentro un tempo piccolo, spesso minuscolo. È il motivo per…

DiByAndrea Tonin Mag 2, 2026