Ernie Image è un nuovo modello di generazione di immagini open-source sviluppato da Baidu che si distingue per le sue eccezionali capacità di rendering del testo e aderenza ai prompt. Con soli 8 miliardi di parametri, il modello può essere eseguito su hardware home ed è disponibile in una versione standard per la massima qualità e una turbo per una maggiore velocità. I test comparativi evidenziano che Ernie supera spesso altri modelli come Z-Image e Flux, eccellendo nella creazione di infografiche, fumetti, layout pubblicitari e design strutturati. Tuttavia, il modello mostra alcune limitazioni nella resa dell’anatomia umana e della texture della pelle, che a volte può apparire artificiale o eccessivamente saturata. Il modello è disponibile in ComfyUI con un prompt enhancer integrato per ottimizzare i risultati creativi. Qui sotto riporto il flusso per il modello turbo.


Seguite il cambiamento del flusso nel punto in cui è posizionato lo switch.
Base VS Turbo
Le differenze principali tra la versione Turbo e quella Base (o standard) del modello Ernie Image riguardano principalmente la velocità di generazione, la qualità dell’immagine e le impostazioni tecniche richieste per il loro funzionamento. Ecco un’analisi dettagliata delle differenze:
1. Velocità e Passaggi di Campionamento (Sampling Steps)
- Ernie Turbo è un modello accelerato progettato per la rapidità. Richiede solo 8 passaggi di campionamento per generare un’immagine.
- Ernie Base, invece, necessita di un numero di passaggi molto superiore per ottenere risultati ottimali: la raccomandazione ufficiale è di 20 passaggi, ma per dettagli superiori se ne consigliano fino a 50. Di conseguenza, la versione Base può essere da tre a cinque volte più lenta rispetto alla Turbo.
2. Qualità e Destinazione d’Uso
- La versione Turbo è considerata un compromesso: è molto più veloce, ma a scapito di una certa qualità che, secondo alcuni esperti, è “appena percettibile” in molti contesti. Tuttavia, in specifici test di realismo, alcuni utenti hanno preferito l’output della Turbo poiché la versione Base tendeva a generare una pelle dall’aspetto “plastico” o artificiale.
- La versione Base è generalmente orientata alla massima qualità e al dettaglio, indicata per lavori impegnativi come la creazione di poster per cartelloni pubblicitari. Produce immagini più naturali e meno “grezze” rispetto alla Turbo in alcuni test di fotorealismo.
3. Impostazioni Tecniche (CFG e Negative Prompt)
- Turbo: Funziona in modo ottimale con un CFG (Classifier-Free Guidance) impostato a 1.0. In questa modalità, il “negative prompt” (il comando per indicare cosa non si vuole nell’immagine) non ha alcun effetto e può essere ignorato.
- Base: Richiede un CFG impostato a 4.0. A differenza della Turbo, è necessario inserire un negative prompt, anche se lasciato vuoto, per il corretto funzionamento del workflow.
4. Costo e Risorse
- Sulle piattaforme commerciali, la versione Turbo è significativamente più economica, costando circa un terzo del prezzo della versione standard (ad esempio, 1 centesimo contro i 3 centesimi del modello base).
- Nonostante la differenza di prestazioni, entrambi i modelli hanno la stessa dimensione in termini di parametri (8 miliardi) e occupano lo stesso spazio su disco (circa 16 GB).
5. Workflow Combinati
Esiste anche la possibilità di utilizzare un workflow misto che combina entrambi i modelli per trovare un equilibrio, dove si utilizza la versione Turbo per definire la composizione iniziale nei primi passaggi e la versione Base per rifinire i dettagli finali, risparmiando tempo senza sacrificare troppo la qualità.
Test
Mettiamo alla prova Ernie Image con qualche prompt impegnativo.
High-fashion style summer outfit infographic featuring color-coordinated floating elements arranged in an elegant expanded circular composition. It includes a breathable straw hat, a sleeveless organic cotton top, a flowing pleated skirt, handcrafted leather sandals, and a woven palm leaf handbag. Exquisite annotations highlight fabric breathability, refreshing texture, moisture-wicking properties, and seasonal comfort. The color palette adopts warm neutral tones—ivory white, terracotta, sand, and soft tan. Subtle dynamic trajectories and flowing fabric swirls suggest a gentle summer breeze, while bright natural sunlight creates soft shadows and sun-kissed sheen, in a Mediterranean style.
Bakery window with a wooden sign reading 'freshly baked today' in cursive Pacifico font, a chalkboard list: croissants 2.50, sourdough loaf $5, cupcakes three bucks each
Someone writing in a diary on the page it says: 'This is quite a long piece of text... this is a test to see if all the text will show up correctly'
Minimalist Chinese watercolor painting of a tiger in a forest
Flat illustration of a deer in a forest but everything is comprised of dots of varying sizes on a white background
A stylized cinematic side-profile medium shot portrait of a young European woman with sleek dark hair in a tight low bun, wearing a crisp white ruffled-collar shirt, eyes closed in serene contemplation, standing against a moody, dark gradient deep indigo-blue twilight sky with layered misty mountain silhouettes in the background, extreme high-contrast split neon lighting: 95% of the scene bathed in deep, saturated cool cyan-blue ambient light (dim, moody, low-key), with a sharp, intense, vivid neon pink-orange rim light tracing her facial profile, neck, and collar, creating bold color blocking and a surreal, artistic aesthetic, minimalist composition, high-fashion editorial, 8K, ultra-sharp focus on subject, moody desaturated blue tones, dramatic contrast, atmospheric depth, tranquil introspective vibe, dark atmospheric background, no overexposure, stylized color grading, neon rim light glow, low-key cool fill light.
Ultra-realistic editorial beauty portrait, tight close-up framing (head and hands), young woman facing camera, intense gaze, finger pressed vertically to lips in a “shh” gesture, slightly parted glossy lips, defined cheekbones, soft matte skin, smoky eye makeup and strong brows. Long wavy chestnut-brown hair with subtle pink streaks near the ends, slightly tousled. Wearing a black knit sweater with sleeves covering part of the hand. Neutral light-gray studio background, soft diffused lighting, high-fashion magazine style, shallow depth of field, crisp focus on eyes and lips, natural film-like color grading, 85mm lens look, f/1.8, ultra-detailed, 8k, photoreal.
Fine-art black and white studio portrait, adult asian woman in a three-quarter back pose looking over her shoulder toward the camera, long voluminous dark hair with soft texture, calm intense gaze, minimal makeup, smooth skin. She Her bare back and shoulder remain visible. Deep black seamless background, low-key lighting with a soft key light from one side creating gentle highlights on cheekbones and shoulder, subtle shadow falloff, cinematic contrast, delicate film grain, soft vignette, 85mm lens look, shallow depth of field, photorealistic, high detail, monochrome.
Baidu ERNIE Image è senza dubbio uno di quei modelli AI da tenere sempre pronti nella propria cassetta degli attrezzi di ComfyUI. Se l’articolo ti è piaciuto restiamo in contatto su linkedin a: https://www.linkedin.com/in/andreatonin/
#ErnieImage #OpenSourceAI #ComfyUI #AIImageGeneration #BaiduAI
Nerd per passione e per professione da oltre 30 anni, lavoro nel mondo dell’innovazione tecnologica come CTO e consulente, progettando ecosistemi software complessi e scalabili. Parallelamente mi dedico alla formazione informatica, condividendo esperienze e buone pratiche maturate sul campo.
Scopri di più sulla mia attività di consulenza su lucedigitale.com Mi trovi anche su LinkedIn
















