Anima: “anime-first” model in tag

Image

Anima: “anime-first” model in tag

C’è un tipo di soddisfazione particolare quando un modello text-to-image “capisce” subito cosa stai cercando, una posa precisa, una silhouette pulita, linee coerenti, un mood illustrativo che non prova a diventare realistico a tutti i costi. Anima nasce esattamente con questa intenzione. È un modello da 2 miliardi di parametri realizzato in collaborazione tra CircleStone Labs e Comfy Org, pensato soprattutto per concetti, personaggi e stili legati all’anime, ma capace anche di coprire un buon ventaglio di immagini non fotorealistiche (illustrazione, concept art, grafica) quando lo guidi con attenzione. Non è il modello da scegliere se vuoi pelle, pori e fotografia credibile, qui l’obiettivo è disegno, atmosfera e “render” illustrativo.

Addestramento

Il punto forte non è solo “fa anime”. È soprattutto come ci arriva. Anima è stato addestrato su diversi milioni di immagini anime e su circa 800.000 immagini artistiche non anime, evitando dati sintetici. Questo mix si sente quando chiedi qualcosa che esce dal canone classico, un’illustrazione con taglio più pittorico, un soggetto fantasy meno “da screenshot”, una composizione con influenze da gallery di artista invece che solo da frame. Il cut-off della parte anime arriva a settembre 2025 (nel momento in cui sto scrivendo), quindi molte serie e tendenze fino a quel periodo sono (in teoria) nel suo bagaglio visivo.

Proprio perché Anima è molto libero e non nasce per imporre paletti rigidi su stile e contenuti, conviene usarlo con maturità, evita materiali protetti da copyright e qualsiasi contenuto non adatto ai minori, e imposta sempre il tuo lavoro su soggetti originali e appropriati al contesto di pubblicazione.

Anima è “a casa” in ComfyUI. Il modello è pensato per essere usato direttamente lì, con una pipeline già impostabile in modo abbastanza lineare.

Installazione

Nel model card ufficiale viene indicata una struttura chiara, ci sono file distinti per modello di diffusione, text encoder e VAE. In ComfyUI vanno messi nelle rispettive cartelle del tuo percorso “models”. In breve, il file principale della preview (quello del modello) va tra i diffusion_models, il text encoder in text_encoders e il VAE nella cartella vae (spesso è già presente se hai lavorato con modelli che usano il Qwen-Image VAE).

Se sbagli cartella o ti manca il VAE corretto, rischi di giudicare male il modello perché l’output viene “decodificato” in modo diverso. Nella pratica, quando qualcosa sembra “spento”, impastato o troppo distante dalle preview viste online, spesso non è il prompt, è la catena modello–encoder–VAE non allineata.

Qui sotto la configurazione minima consigliata.

Impostazioni

Per questa preview viene consigliata una fascia di risoluzione attorno a 1 megapixel. Significa che 1024×1024 è un classico, ma anche formati come 896×1152 o 1152×896 funzionano bene e spesso risultano più naturali per figure intere. Il checkpoint è ancora “medio-res”, quindi spingerlo troppo in alto porta più facilmente a errori di dettaglio (mani, micro-pattern, piccoli accessori, scritte)..

Sui passaggi, la forchetta suggerita è 30–50 step con CFG attorno a 4–5. Non è un invito a fare sempre 50 (a volte 30 sono già ottimi), ma è un’indicazione del tipo di equilibrio che Anima gradisce, abbastanza step per rifinire linee e colori, CFG moderato per non “bruciare” l’immagine o irrigidire lo stile.

Poi entrano in scena i sampler. Qui la differenza si vede davvero, soprattutto su lineart e feeling del tratto. Nel model card vengono citati tre preferiti, che vale la pena capire come “personalità” più che come tecnicismi:

  • Pulizia: er_sde tende a restituire uno stile neutro, colori piatti e linee più nette. Se vuoi un risultato pulito, leggibile e vicino a un’illustrazione “grafica”, è un buon punto di partenza.
  • Morbidezza: euler_a ammorbidisce, assottiglia le linee e può avvicinarsi a un look un po’ più “2.5D” in certi prompt. È utile se cerchi delicatezza, meno spigoli, un’aria più “pittorica leggera” senza perdere troppo l’anime.
  • Varietà: dpmpp_2m_sde_gpu è spesso un compromesso vivace, simile a er_sde come famiglia di resa, ma più vario e talvolta più “creativo”. Il rovescio della medaglia è che, se il prompt è generico, può diventare un po’ troppo imprevedibile.

Il trucco non è trovare “il migliore”, è abbinare sampler e prompt. Un prompt molto dettagliato spesso sta bene anche con un sampler più “wild”, perché gli dà binari su cui correre. Un prompt corto, invece, con un sampler creativo può scappare in direzioni non desiderate.

Tag in stile Danbooru

Anima è stato addestrato con tag in stile Danbooru, con caption in linguaggio naturale e con mix di entrambi. Questo è il tuo vantaggio, puoi lavorare “da illustratore” (descrivendo scena, luce, mood) e “da art director” (vincolando con tag precisi).

I tag in stile Danbooru sono un modo “catalografico” di descrivere un’immagine usando parole chiave molto brevi e standardizzate, nate attorno ai grandi archivi di illustrazioni anime. Invece di scrivere una frase lunga tipo “una ragazza con capelli castani che sorride, indossa guanti e un cappello natalizio su sfondo bianco”, spezzetti tutto in etichette: soggetto, dettagli visivi, azione, inquadratura, stile, qualità, a volte anche autore o serie. L’idea è che ogni tag corrisponda a un concetto visivo abbastanza preciso, così il modello può “assemblare” l’immagine combinando i mattoncini.

La cosa importante è che non sono semplicemente parole a caso, sono tag che, per convenzione, hanno forme ricorrenti. Ci sono tag per il numero di personaggi (tipo 1girl/1boy), tag per caratteristiche fisiche (hair color, eye color), per accessori e abbigliamento (hat, gloves, scarf), per espressioni e pose (smile, looking at viewer), per elementi di scena (city, night, snow), per inquadratura (close-up, full body), e spesso tag “meta” che parlano della qualità o della natura dell’immagine (highres, official art, screenshot). Molti tag sono in inglese perché quella è la lingua in cui si è consolidato lo standard.

Perché sono utili con modelli come Anima? Perché questi modelli sono stati addestrati anche su dataset dove le immagini erano associate a liste di tag. Quando usi quel linguaggio, stai parlando una lingua che il modello ha visto milioni di volte, è un modo efficace per controllare dettagli specifici senza dover scrivere un romanzo. Inoltre puoi mescolare, usare tag per fissare i punti fermi e una breve descrizione in linguaggio naturale per dare atmosfera, composizione e intenzione.

Il “tagging” in stile Danbooru tende a funzionare bene quando resti concreto e visivo. Più il tag descrive qualcosa che si può vedere chiaramente (un oggetto, un colore, una posa), più è probabile che abbia un effetto pulito. Concetti astratti o emotivi funzionano meglio se li sostieni con segnali visivi (luce, espressione, ambientazione) invece di lasciarli solo come idee. Vediamo un esempio concreto:

Plaintext
SHOJO TAGS
year 2025, recent, highres, safe, 1girl, solo, shoujo, schoolgirl, sailor_uniform, pastel_colors, soft_shading, sparkles, flower_petals, heart_bokeh, big_eyes, long_wavy_hair, chestnut_hair, blush, gentle_smile, looking_at_viewer, holding_letter, shy_pose, classroom, after_school, warm_sunlight, dreamy_atmosphere, manga_style, clean_lineart, delicate_lines

SHONEN TAGS
year 2025, recent, highres, safe, 1boy, solo, shounen, teenage_boy, spiky_hair, black_hair, sharp_eyes, determined_expression, looking_at_viewer, fighting_stance, clenched_fist, school_uniform, gakuran, open_jacket, wind, dynamic_pose, motion_blur, dramatic_lighting, city_street, sunset, dust, action_lines, manga_style, clean_lineart, high_contrast, intense_atmosphere

La cosa più utile da ricordare non è una singola parola magica, ma la logica dell’ordine. La struttura suggerita è:

  • tag di anno/qualità/sicurezza (year 2025, highres, safe)
  • la cardinalità (1girl/1boy/1other)
  • personaggio e serie (Dragonball, Naruto)
  • artista con suffisso @ (@AkiraToriyama)
  • qualità (masterpiece, best quality, good quality e simili)
  • estetici in stile score_9…score_1

Dentro ogni sezione l’ordine è flessibile, ma la macro-struttura aiuta il modello a interpretare il prompt come un “brief” pulito. Prova a mantenere costante la scena e alternare solo i tag di qualità per vedere come reagisce il modello su linee, pulizia e gestione degli highlights.

Un punto che spesso si sottovaluta è il tag anno o periodo. Inserire “year 2025” o “newest/recent” non è una moda, serve a orientare il modello su estetiche e convenzioni più contemporanee. Se stai cercando un tratto più “old school”, usare “early/old” può spostare l’ago della bussola verso scelte più rétro.

Plaintext
POSITIVE
masterpiece, best quality, highres, 1girl, solo, elf, pointy ears, side profile, young woman, long wavy hair, blonde hair, green tint hair, braid, flower crown, leaves, pastel flowers, ornate earrings, dangling earrings, shoulder tattoo, white dress, fantasy clothing, delicate features, soft blush, forest background, sunlight, dappled light, soft lighting, rim light, depth of field, bokeh, detailed eyes, soft shading, painterly, dreamy atmosphere

NEGATIVE
text, watermark, logo, bad hands, extra fingers, missing fingers, deformed hands, blurry, jpeg artifacts, worst quality, low quality, poorly drawn anatomy, extra limbs, distorted face, harsh shadows, oversaturated, flat lighting

Sull’artista: qui Anima ha una regola precisa. Se vuoi che il modello provi a evocare un certo artista, devi prefissare il tag con @. Senza @ l’effetto è molto più debole. Vale anche un’avvertenza: essendo una preview base e non “aesthetic tuned”, la resa può risultare neutra se non dai un minimo di direzione (qualità, artista, o un linguaggio naturale ricco).

Per ampliare stile e contenuto, Anima è stato addestrato anche su due dataset artistici non-anime (LAION-POP in una variante filtrata e DeviantArt), con un meccanismo particolare: le caption provenienti da quei dataset vengono etichettate con un “dataset tag” che va messo all’inizio del prompt, seguito da una nuova riga. Puoi poi mettere, opzionalmente, una seconda riga con alt-text o titolo, e poi la descrizione vera e propria.

Mi direte che non è facile da usare… è vero, quindi andiamo a creare un prompt/agente che ci aiuti a tradurre le nostre visioni in tag, lo potremo utilizzare in ChatGPT, Gemini, Qwen e simili:

Plaintext
##NOME GPT
Anima Tag Architect

##DESCRIZIONE
Trasforma immagini o descrizioni in tag ottimizzati per il modello Anima, preservando intenzioni artistiche e qualità visiva.

##ISTRUZIONI
Sei Anima Tag Architect, un assistente specializzato nella creazione di prompt e tag efficaci per il modello text-to-image Anima.

Il tuo compito è trasformare:
- un’immagine
- una descrizione testuale
- oppure entrambe
in un prompt ottimizzato che trasferisca chiaramente le intenzioni visive dell’utente.

##OBIETTIVO
Produrre tag chiari, coerenti e visivamente efficaci per generare illustrazioni anime e artistiche di alta qualità.

##PIPELINE LOGICA
Quando ricevi un input:
1. Analizza soggetti, ambiente, luce, stile, composizione e mood.
2. Se l’input è un’immagine, descrivila mentalmente in modo oggettivo.
3. Genera candidate tags in stile Danbooru.
4. Filtra ridondanze e rumore.
5. Seleziona 10–20 tag ad alta rilevanza visiva.
6. Aggiungi eventuali tag mancanti fondamentali:
- inquadratura
- illuminazione
- atmosfera
- stile visivo

Ordina i tag secondo la grammatica Anima:
[quality/meta/year/safety] 
[subject count] 
[character] 
[series] 
[artist] 
[general tags]

Genera 1–3 frasi in linguaggio naturale coerenti con i tag.
Crea negative tags puliti per evitare difetti comuni.

##REGOLE PER I TAG
Qualità e meta
Usa 1–2 tra:
- masterpiece, best quality, good quality
- score_7–score_9
- highres
- year 2025 / newest / recent

Conteggio soggetti
1girl, 1boy, 2girls, solo, ecc.

Artista
prefisso obbligatorio: @artistname

Stile
Traduci concetti artistici in tag concreti:
- clean lineart
- flat color
- soft shading
- watercolor
- painterly
- detailed eyes

Evita
- over-tagging
- sinonimi duplicati
- dettagli incerti

##LINGUAGGIO NATURALE
Se l’input è breve o ambiguo:
- rafforza la descrizione con contesto visivo
- descrivi soggetto, ambiente, luce e mood

##LIMITI E SICUREZZA
- **Mantieni il rating safe.**
- **Non generare contenuti sessuali espliciti.**
- **Se richiesti personaggi o artisti protetti da copyright, suggerisci alternative originali descrittive.**

##FORMATO OUTPUT
Rispondi SEMPRE in questo formato:
- PROMPT TAGS
(tag separati da virgole)
- PROMPT NATURALE
(1–3 frasi)
- NEGATIVE TAGS
text, watermark, logo,  bad hands, extra fingers, missing fingers, deformed hands, blurry, jpeg artifacts, worst quality, low quality (+ tag aggiuntivi separati da virgole se necessari...)

##PRINCIPI DI QUALITÀ
- privilegia leggibilità e composizione
- blocca solo gli elementi importanti
- lascia libertà creativa al modello
- preserva l’intenzione artistica dell’utente

##ESEMPI DI INPUT CHE DEVE CAPIRE
✔ “ragazza cyberpunk sotto la pioggia”
✔ “illustrazione fantasy pittorica”
✔ immagine caricata
✔ descrizione + stile richiesto

Se scrivi in linguaggio naturale “puro”, Anima tende a premiare descrizioni più ricche. Il model card suggerisce almeno due frasi, perché prompt troppo corti possono portare a risultati inattesi (e questo dovrebbe migliorare nella versione finale).

Setup img-to-img

Potremo avere molto più controllo sull’immagine finale con un sistema che contempli l’uso di una procedura img-to-img, quindi potenziamo il tutto con l’aggiunta dei blocchi indicati di seguito:

KSampler (setup img-to-img)

Impostiamo il KSampler per farlo funzionare con Anima.

SEED

La seed è il punto di partenza del rumore casuale.

  • Stessa seed → stessa struttura di base
  • Seed diversa → nuova interpretazione della scena
  • Cambiando seed cambiano posa, proporzioni, espressione, layout
  • È il modo più veloce per “scoprire” come il modello interpreta il prompt (per esplorare lo spazio latente)

Control After Generate: Randomize

Questo forza il cambio seed automatico dopo ogni generazione, impostare su fixed per gestire SEED manualmente.

Steps: 30

Gli steps controllano quante iterazioni di raffinamento fa il sampler.

  • <20 → dettagli meno definiti
  • 25–35 → sweet spot qualità/tempo
  • 40 → miglioramenti minimi, più tempo

CFG: 7.0

CFG (Classifier Free Guidance) = quanto il modello segue il prompt.

  • 4–6 → più libertà creativa
  • 7–9 → equilibrio
  • 10+ → rigido, rischio artefatti

Il valore di 7 è il più stabile per un anime illustrativo.

Sampler: seeds_2

Questo sampler tende a:

  • Mantenere lineart pulita
  • Dare buona definizione agli occhi
  • Evitare rumore sporco nelle ombre

Scheduler: simple

Lo scheduler controlla la distribuzione del rumore durante i passaggi, “simple”:

  • Distribuzione lineare
  • Transizione morbida
  • Coerenza visiva stabile

Denoise: 0.65

Questo è fondamentale in img2img.

  • 0.3–0.5 → molto fedele all’originale
  • 0.6–0.75 → equilibrio
  • 0.8+ → quasi ricrea da zero

Quindi 0.65 funziona perché mantiene struttura, posa e composizione, permette miglioramenti stilistici, applica palette, rendering, materiali.

Adesso siamo pronti per fare sul serio… prepariamoci a fondere la nostra scheda grafica!

Plaintext
masterpiece, best quality, highres, 1girl, solo, upper body, witch hat, smiling, open mouth, braid, side braid, cat, small animal, fantasy, manga style, monochrome, screentone, complex screentone, layered screentone, gradient screentone, dense screentone shadows, cross hatching, detailed lineart, soft shading with screentone, sparkles, white background
Plaintext
masterpiece, best quality, highres, 1man, solo, original character, @artist_unknown, old man, long white beard, flowing white hair, wrinkles, scarred face, stern expression, muscular elderly male, dynamic pose, lunging forward, open clawed hand, intense gaze, ink wash, chinese ink painting, ultra detailed, intricate linework, fine crosshatching, dramatic lighting, high contrast, dark aura, ink splatter background, dynamic angle
Plaintext
masterpiece, best quality, highres, 1girl, solo, full body, side view, looking at viewer, long hair, blonde hair, beanie, earrings, lollipop, oversized jacket, streetwear, short skirt, thighhighs, backpack, urban background, city street, soft pastel colors, watercolor style, soft shading, delicate lighting, clean lineart, anime style, light atmosphere

Per sfruttare al massimo un modello custom e fortemente verticalizzato come Anima, è necessario fare molta pratica; potete però essere certi che lo sforzo sarà ampiamente ripagato.

Se l’articolo ti è piaciuto e condividi la passione per la tecnologia, gli anime e i manga, restiamo in contatto su LinkedIn: https://www.linkedin.com/in/andreatonin/

#AnimaAI #ComfyUI #AnimeGeneration #AIIllustration #TextToImage #DigitalArtWorkflow #PromptEngineering #CreativeAI #AIArtTools #AnimeStyle

Releated Posts

Quando l’IA smette di “calcolare” e inizia a capire: intuizione, creatività, morte, regole e limiti

Ritieni possibile che l’IA possa arrivare a produrre vere e proprie “intuizioni”? Che quindi non si dimostri solo…

DiByAndrea Tonin Mar 4, 2026

Prof. Python

Questo agente AI nasce con un’idea molto precisa: non “sapere Python” e basta, ma saperlo insegnare come farebbe…

DiByAndrea Tonin Feb 14, 2026

Dal pack allo spot: come portare un prodotto dalla foto all’ADV con l’AI

C’è un momento, in ogni progetto di packaging, in cui le idee sono pronte ma manca ancora quella…

DiByAndrea Tonin Feb 8, 2026

Character Realism Transformer: prompt come pipeline di trasformazione

C’è un motivo se molti “GPT” per la trasformazione immagini si fermano a metà strada, sanno generare realismo,…

DiByAndrea Tonin Feb 7, 2026