ComfyUI: Baidu Ernie Image

Image

ComfyUI: Baidu Ernie Image

Ernie Image è un nuovo modello di generazione di immagini open-source sviluppato da Baidu che si distingue per le sue eccezionali capacità di rendering del testo e aderenza ai prompt. Con soli 8 miliardi di parametri, il modello può essere eseguito su hardware home ed è disponibile in una versione standard per la massima qualità e una turbo per una maggiore velocità. I test comparativi evidenziano che Ernie supera spesso altri modelli come Z-Image e Flux, eccellendo nella creazione di infografiche, fumetti, layout pubblicitari e design strutturati. Tuttavia, il modello mostra alcune limitazioni nella resa dell’anatomia umana e della texture della pelle, che a volte può apparire artificiale o eccessivamente saturata. Il modello è disponibile in ComfyUI con un prompt enhancer integrato per ottimizzare i risultati creativi. Qui sotto riporto il flusso per il modello turbo.

Seguite il cambiamento del flusso nel punto in cui è posizionato lo switch.

Base VS Turbo

Le differenze principali tra la versione Turbo e quella Base (o standard) del modello Ernie Image riguardano principalmente la velocità di generazione, la qualità dell’immagine e le impostazioni tecniche richieste per il loro funzionamento. Ecco un’analisi dettagliata delle differenze:

1. Velocità e Passaggi di Campionamento (Sampling Steps)

  • Ernie Turbo è un modello accelerato progettato per la rapidità. Richiede solo 8 passaggi di campionamento per generare un’immagine.
  • Ernie Base, invece, necessita di un numero di passaggi molto superiore per ottenere risultati ottimali: la raccomandazione ufficiale è di 20 passaggi, ma per dettagli superiori se ne consigliano fino a 50. Di conseguenza, la versione Base può essere da tre a cinque volte più lenta rispetto alla Turbo.

2. Qualità e Destinazione d’Uso

  • La versione Turbo è considerata un compromesso: è molto più veloce, ma a scapito di una certa qualità che, secondo alcuni esperti, è “appena percettibile” in molti contesti. Tuttavia, in specifici test di realismo, alcuni utenti hanno preferito l’output della Turbo poiché la versione Base tendeva a generare una pelle dall’aspetto “plastico” o artificiale.
  • La versione Base è generalmente orientata alla massima qualità e al dettaglio, indicata per lavori impegnativi come la creazione di poster per cartelloni pubblicitari. Produce immagini più naturali e meno “grezze” rispetto alla Turbo in alcuni test di fotorealismo.

3. Impostazioni Tecniche (CFG e Negative Prompt)

  • Turbo: Funziona in modo ottimale con un CFG (Classifier-Free Guidance) impostato a 1.0. In questa modalità, il “negative prompt” (il comando per indicare cosa non si vuole nell’immagine) non ha alcun effetto e può essere ignorato.
  • Base: Richiede un CFG impostato a 4.0. A differenza della Turbo, è necessario inserire un negative prompt, anche se lasciato vuoto, per il corretto funzionamento del workflow.

4. Costo e Risorse

  • Sulle piattaforme commerciali, la versione Turbo è significativamente più economica, costando circa un terzo del prezzo della versione standard (ad esempio, 1 centesimo contro i 3 centesimi del modello base).
  • Nonostante la differenza di prestazioni, entrambi i modelli hanno la stessa dimensione in termini di parametri (8 miliardi) e occupano lo stesso spazio su disco (circa 16 GB).

5. Workflow Combinati

Esiste anche la possibilità di utilizzare un workflow misto che combina entrambi i modelli per trovare un equilibrio, dove si utilizza la versione Turbo per definire la composizione iniziale nei primi passaggi e la versione Base per rifinire i dettagli finali, risparmiando tempo senza sacrificare troppo la qualità.

Test

Mettiamo alla prova Ernie Image con qualche prompt impegnativo.

Plaintext
High-fashion style summer outfit infographic featuring color-coordinated floating elements arranged in an elegant expanded circular composition. It includes a breathable straw hat, a sleeveless organic cotton top, a flowing pleated skirt, handcrafted leather sandals, and a woven palm leaf handbag. Exquisite annotations highlight fabric breathability, refreshing texture, moisture-wicking properties, and seasonal comfort. The color palette adopts warm neutral tones—ivory white, terracotta, sand, and soft tan. Subtle dynamic trajectories and flowing fabric swirls suggest a gentle summer breeze, while bright natural sunlight creates soft shadows and sun-kissed sheen, in a Mediterranean style.
Plaintext
Bakery window with a wooden sign reading 'freshly baked today' in cursive Pacifico font, a chalkboard list: croissants 2.50, sourdough loaf $5, cupcakes three bucks each
Plaintext
Someone writing in a diary on the page it says: 'This is quite a long piece of text... this is a test to see if all the text will show up correctly'
Plaintext
Minimalist Chinese watercolor painting of a tiger in a forest
Plaintext
Flat illustration of a deer in a forest but everything is comprised of dots of varying sizes on a white background
Plaintext
A stylized cinematic side-profile medium shot portrait of a young European woman with sleek dark hair in a tight low bun, wearing a crisp white ruffled-collar shirt, eyes closed in serene contemplation, standing against a moody, dark gradient deep indigo-blue twilight sky with layered misty mountain silhouettes in the background, extreme high-contrast split neon lighting: 95% of the scene bathed in deep, saturated cool cyan-blue ambient light (dim, moody, low-key), with a sharp, intense, vivid neon pink-orange rim light tracing her facial profile, neck, and collar, creating bold color blocking and a surreal, artistic aesthetic, minimalist composition, high-fashion editorial, 8K, ultra-sharp focus on subject, moody desaturated blue tones, dramatic contrast, atmospheric depth, tranquil introspective vibe, dark atmospheric background, no overexposure, stylized color grading, neon rim light glow, low-key cool fill light.
Plaintext
Ultra-realistic editorial beauty portrait, tight close-up framing (head and hands), young woman facing camera, intense gaze, finger pressed vertically to lips in a “shh” gesture, slightly parted glossy lips, defined cheekbones, soft matte skin, smoky eye makeup and strong brows. Long wavy chestnut-brown hair with subtle pink streaks near the ends, slightly tousled. Wearing a black knit sweater with sleeves covering part of the hand. Neutral light-gray studio background, soft diffused lighting, high-fashion magazine style, shallow depth of field, crisp focus on eyes and lips, natural film-like color grading, 85mm lens look, f/1.8, ultra-detailed, 8k, photoreal.
Plaintext
Fine-art black and white studio portrait, adult asian woman in a three-quarter back pose looking over her shoulder toward the camera, long voluminous dark hair with soft texture, calm intense gaze, minimal makeup, smooth skin. She Her bare back and shoulder remain visible. Deep black seamless background, low-key lighting with a soft key light from one side creating gentle highlights on cheekbones and shoulder, subtle shadow falloff, cinematic contrast, delicate film grain, soft vignette, 85mm lens look, shallow depth of field, photorealistic, high detail, monochrome.

Baidu ERNIE Image è senza dubbio uno di quei modelli AI da tenere sempre pronti nella propria cassetta degli attrezzi di ComfyUI. Se l’articolo ti è piaciuto restiamo in contatto su linkedin a: https://www.linkedin.com/in/andreatonin/

#ErnieImage #OpenSourceAI #ComfyUI #AIImageGeneration #BaiduAI

Releated Posts

Regia Algoritmica: Facial Action Coding System

FACS è un modo “a pezzi” per descrivere ciò che fa il viso quando esprime qualcosa. Invece di…

DiByAndrea Tonin Mag 17, 2026

Regia Algoritmica: Laban Movement Analysis

Laban Movement Analysis (di solito abbreviata in LMA, o Laban/Bartenieff Movement Analysis quando si vuole riconoscere esplicitamente il…

DiByAndrea Tonin Mag 16, 2026

Fare casting per un Virtual Influencer

C’è un errore che vedo spesso quando qualcuno si avvicina alla grafica AI con l’idea di creare un…

DiByAndrea Tonin Mag 12, 2026

Dallo storyboard allo spot con GPT Image e Seedance

Quando progetti uno spot, stai comprimendo una storia dentro un tempo piccolo, spesso minuscolo. È il motivo per…

DiByAndrea Tonin Mag 2, 2026