Prompt Engineering per SORA AI

Image

Prompt Engineering per SORA AI

Sora è un modello di intelligenza artificiale sviluppato da OpenAI che consente la generazione di video realistici a partire da descrizioni testuali.

Il nome “Sora” deriva dalla parola giapponese per “cielo”, a simboleggiare il suo “potenziale creativo illimitato”. La tecnologia alla base di Sora è un adattamento di quella utilizzata nel modello DALL·E 3, anch’esso sviluppato da OpenAI. Il sistema è stato addestrato utilizzando video disponibili pubblicamente e video con diritti d’autore concessi in licenza per questo scopo, sebbene OpenAI non abbia rivelato il numero esatto o le fonti specifiche dei video utilizzati.

Il 9 dicembre 2024, OpenAI ha reso Sora disponibile al pubblico per gli abbonati a ChatGPT Plus e ChatGPT Pro. Gli abbonati Plus possono creare fino a 50 video prioritari al mese con una risoluzione fino a 720p e una durata massima di 5 secondi, mentre gli abbonati Pro hanno accesso a 500 video prioritari, generazioni illimitate in modalità “relaxed”, risoluzione fino a 1080p, durata massima di 20 secondi e la possibilità di effettuare fino a cinque generazioni contemporaneamente. Inoltre, gli abbonati Pro possono scaricare i video senza watermark.

OpenAI ha implementato misure di sicurezza per prevenire l’uso improprio di Sora, inclusa l’aggiunta di watermark visibili e metadati C2PA ai video generati per indicare che sono stati creati dall’IA. Inoltre, sono stati posti limiti alle richieste di testo per evitare la generazione di contenuti sessuali, violenti, di odio o che coinvolgono celebrità, nonché contenuti con proprietà intellettuale preesistente.

Strategie di Prompt Engineering

Alcune strategie efficaci per la generazione di prompt ottimali in Sora includono:

  • Descrizioni dettagliate: Specificare elementi come il movimento della camera, le condizioni di illuminazione e le espressioni facciali.
  • Indicazioni temporali: Utilizzare parole chiave che indichino lo sviluppo temporale della scena, come “inizia lentamente”, “accelera gradualmente” o “termina con una dissolvenza”.
  • Coerenza narrativa: Evitare prompt ambigui o contraddittori che potrebbero generare transizioni irrealistiche o movimenti innaturali.
  • Uso di riferimenti cinematografici: Menzionare stili visivi noti, come “stile noir anni ’50” o “estetica cyberpunk”.

Somiglianze con DALL-E

Nonostante le differenze nella tipologia di output, esistono molte analogie tra il prompt engineering per Sora e quello per DALL-E:

  • Precisione semantica: Entrambi i modelli rispondono meglio a descrizioni dettagliate e ben strutturate.
  • Uso delle relazioni spaziali: In DALL-E, specificare la posizione degli oggetti migliora la composizione dell’immagine; in Sora, la gestione dello spazio influisce sulla coerenza del movimento.
  • Adattabilità stilistica: Come in DALL-E, anche Sora può replicare stili visivi noti se descritti con precisione nel prompt.
  • Limitazioni nella fisica: Entrambi i modelli possono generare risultati incoerenti se le istruzioni non rispettano principi realistici.

Prompt Semplici

1. Scena Naturale

📝 Prompt:
“Un campo di girasoli ondeggia dolcemente sotto la brezza del tramonto. Il sole arancione illumina i petali dorati, mentre un gruppo di api vola di fiore in fiore. La telecamera si muove lentamente, catturando i dettagli dei fiori e il cielo colorato.”

📌 Obiettivo: Generare un video con movimenti naturali e una luce suggestiva.


2. Scena Urbana Notturna

📝 Prompt:
“Una strada di Tokyo di notte, con luci al neon che riflettono sulla strada bagnata dalla pioggia. Persone camminano con ombrelli trasparenti, mentre le insegne luminose lampeggiano. La telecamera segue un taxi giallo che passa lentamente.”

📌 Obiettivo: Creare un’ambientazione urbana realistica con atmosfera cinematografica.


3. Azione Dinamica

📝 Prompt:
“Un motociclista sfreccia lungo una strada di montagna, superando tornanti con agilità. Il vento muove la sua giacca di pelle, mentre il sole tramonta dietro le cime innevate. La telecamera segue da vicino, creando una sensazione di velocità.”

📌 Obiettivo: Simulare una scena dinamica con movimenti realistici della telecamera.


4. Scena Fantascientifica

📝 Prompt:
“Un’astronave futuristica atterra su un pianeta alieno con cieli viola e montagne luminose. Creature aliene osservano curiose mentre il portellone della nave si apre, rivelando un astronauta con una tuta hi-tech. La telecamera si avvicina lentamente alla scena.”

📌 Obiettivo: Creare un’ambientazione sci-fi con dettagli visivi ricchi.


5. Animale in Movimento

📝 Prompt:
“Un piccolo gatto bianco e nero gioca con una foglia d’autunno in un parco. Salta, la insegue e la cattura con le zampe. La telecamera segue i suoi movimenti con angolazioni morbide e naturali.”

📌 Obiettivo: Riprodurre un comportamento animale realistico con dettagli espressivi.


Prompt Avanzati

1. Cyberpunk Metropolitano

📝 Prompt:
“Una città cyberpunk nel 2095, illuminata da ologrammi pubblicitari e luci al neon blu e rosa. La pioggia cade leggera, creando riflessi vibranti sulle strade di asfalto bagnato. Un detective con un trench nero e un occhio cibernetico cammina tra la folla, mentre droni di sorveglianza sorvolano il cielo. La telecamera si muove con un’inquadratura in stile noir, seguendo il detective tra vicoli fumosi e insegne lampeggianti in kanji.”

📌 Tecniche avanzate usate nel prompt:

  • Ambiente dettagliato (tempo atmosferico, luci, tecnologia futuristica)
  • Personaggi con tratti distintivi (detective con occhio cibernetico)
  • Dinamica di ripresa (stile noir, movimento della camera)

2. Duello Samurai al Tramonto

📝 Prompt:
“Due samurai si affrontano in un campo di grano dorato al tramonto, con il vento che fa ondeggiare le spighe. Il sole basso crea silhouette nette, mentre il suono delle cicale riempie l’aria. Il primo samurai, con un’armatura rossa, estrae la katana con un gesto fluido, mentre il suo avversario, vestito di nero, resta immobile, osservandolo con occhi di ghiaccio. La tensione cresce, la telecamera stringe sui dettagli delle spade, poi rallenta il tempo nel momento dell’attacco, mostrando il bagliore metallico delle lame.”

📌 Tecniche avanzate usate nel prompt:

  • Uso della luce e delle ombre per creare atmosfera
  • Tensione narrativa attraverso la descrizione del duello
  • Slow-motion cinematografico

3. Esplorazione di un Relitto Sottomarino

📝 Prompt:
“Un team di subacquei esplora il relitto di un’antica nave pirata sommersa nelle profondità dell’oceano. Le torce illuminano il legno incrostato di coralli e alghe fluorescenti. Pesci tropicali nuotano tra le strutture, mentre un’ombra misteriosa si muove in lontananza. La telecamera segue un sub che entra in una cabina buia, dove il vecchio diario del capitano galleggia sospeso nell’acqua, ancora leggibile tra le bolle che salgono lentamente.”

📌 Tecniche avanzate usate nel prompt:

  • Elementi visivi dettagliati (illuminazione subacquea, creature marine)
  • Tensione e mistero attraverso il movimento di un’ombra sconosciuta
  • Effetti fisici realistici (bolle d’aria, movimento dell’acqua)

4. Battaglia Epica tra Draghi

📝 Prompt:
“Nel cielo sopra una città medievale, due draghi giganti combattono in una danza di fuoco e fulmini. Uno è ricoperto di scaglie d’oro e sputa fiamme ardenti, mentre l’altro, di colore nero e blu, genera scariche elettriche con le sue ali. I cavalieri in armatura osservano terrorizzati dal basso, mentre la telecamera segue la battaglia aerea con rapidi movimenti tra nuvole di fumo e ceneri incandescenti. La scena si conclude con un’esplosione luminosa mentre i due draghi si scontrano.”

📌 Tecniche avanzate usate nel prompt:

  • Dinamismo e azione (battaglia in volo con prospettive spettacolari)
  • Effetti speciali (fuoco, fulmini, esplosioni)
  • Scena epica con grande impatto visivo

5. Viaggio In Un Universo Parallelo

📝 Prompt:
“Un astronauta in una tuta bianca e argentata attraversa un portale interdimensionale e si ritrova in un universo parallelo. Il cielo è un vortice di colori iridescenti, mentre isole fluttuanti ricoperte di foreste luminescenti galleggiano nel vuoto. La gravità sembra invertita: cascate d’acqua scorrono verso l’alto, e strane creature simili a meduse volano lente nell’aria. La telecamera si muove con una prospettiva fluida, ruotando per enfatizzare la distorsione della realtà. L’astronauta estende la mano, e un piccolo frammento di luce fluttuante si posa sul suo guanto, pulsando come un cuore vivo.”

📌 Tecniche avanzate usate nel prompt:

  • Ambiente surreale e altamente immaginativo
  • Fisica alternativa (gravità invertita, portale interdimensionale)
  • Movimenti di camera innovativi (rotazioni, cambi di prospettiva)

Il mood e le vibes di un prompt per Sora sono fondamentali per guidare il modello verso un risultato coerente e d’impatto. Non basta descrivere una scena visivamente dettagliata: bisogna anche trasmettere l’atmosfera giusta, perché la stessa ambientazione può evocare emozioni molto diverse in base alla scelta delle parole e dei dettagli.

Come il Mood Influenza il Risultato

Il mood (o atmosfera) definisce l’emozione generale che un video deve comunicare. Alcuni elementi chiave per impostarlo sono:

  1. Scelta dei colori e della luce
    • Tinte calde → Mood accogliente, nostalgico, positivo (es. tramonti dorati, luce soffusa).
    • Toni freddi → Sensazione di mistero, malinconia o tensione (es. blu notte, nebbia densa).
    • Contrasti forti → Atmosfera drammatica o surreale (es. ombre nette, luci al neon).
  2. Descrizione del movimento
    • Movimenti fluidi e lenti → Sensazione di pace o sogno.
    • Scatti veloci e cambi di prospettiva → Adrenalina e tensione.
    • Telecamera instabile → Effetto realistico e immersivo.
  3. Suoni e ambiente (anche se Sora non genera audio, il sound design può essere implicito)
    • Silenzio con vento leggero → Atmosfera contemplativa.
    • Tuoni in lontananza → Anticipazione e inquietudine.
    • Musica da vecchio grammofono in una stanza vuota → Nostalgia o mistero.

Vibes: Il Carattere della Scena

Le vibes sono un’estensione del mood: rappresentano il “sentimento istintivo” che il video trasmette. Possono essere definite con riferimenti culturali, estetici e di genere. Ecco alcuni esempi pratici:


Cozy & Nostalgic Vibes

📝 Prompt:
“Un piccolo bar parigino in una strada acciottolata, illuminato da una calda luce gialla. Un uomo anziano sorride mentre versa un caffè fumante, mentre fuori la pioggia cade leggera. L’insegna in ferro battuto ondeggia dolcemente nella brezza notturna.”

📌 Mood: Nostalgico, confortante.
📌 Vibes: “Old Paris”, anni ‘50, estetica da film francese.


Neo-Noir & Mystery Vibes

📝 Prompt:
“Un detective in un lungo cappotto nero cammina sotto la pioggia in una città futuristica illuminata da neon viola e blu. Il fumo delle grate sale nell’aria, mentre una misteriosa donna in rosso scompare tra la folla. La telecamera segue il detective da dietro, con un’illuminazione drammatica che enfatizza la pioggia battente.”

📌 Mood: Misterioso, intrigante.
📌 Vibes: Cyberpunk noir, ispirato a Blade Runner.


Dreamy & Surreal Vibes

📝 Prompt:
“Un’isola fluttuante sospesa nel cielo rosa dell’alba. Gli alberi hanno foglie luminescenti che ondeggiano come se fossero immerse in acqua. Una giovane ragazza con un vestito bianco cammina a piedi nudi su un sentiero sospeso tra le nuvole, seguita da piccole lucciole di luce azzurra.”

📌 Mood: Sognante, etereo.
📌 Vibes: Fantasy onirico, ispirato a Studio Ghibli.


Dark & Haunting Vibes

📝 Prompt:
“Una casa abbandonata avvolta nella nebbia densa. La porta cigola lentamente mentre una figura oscura si intravede dietro una finestra incrinata. La telecamera si muove lentamente tra i corridoi pieni di polvere e ragnatele, mentre una vecchia sedia a dondolo oscilla da sola.”

📌 Mood: Inquietante, oscuro.
📌 Vibes: Horror gotico, ispirato a Crimson Peak.


Ottimizzare per Mood e Vibes

  1. Usa aggettivi evocativi: Sostituisci parole generiche con termini più descrittivi. Es. invece di “una città con luci”“una città immersa in luci al neon pulsanti che colorano la pioggia battente”.
  2. Specifica i dettagli atmosferici: Non limitarti a descrivere la scena, ma aggiungi elementi che evocano emozioni (pioggia, vento, fumo, polvere, riflessi).
  3. Prendi ispirazione da generi visivi e cinematografici: Citare un’estetica specifica aiuta il modello a orientarsi (es. “stile cinematografico alla Wes Anderson con colori pastello e simmetria perfetta”).

Timing

Per assicurarti che la descrizione del prompt e la durata dell’animazione coincidano in Sora, devi considerare alcuni aspetti chiave legati al tempo, alla densità della scena e alla fluidità del movimento.

1. Rapporto tra Descrizione e Durata

Sora può generare video fino a 60 secondi, quindi devi assicurarti che il contenuto della scena sia compatibile con il tempo disponibile.


Allineare Tempo e Contenuto

  • Stimare il tempo necessario per ogni azione
    • Azioni lente (es. passeggiare, tramonto, neve che cade) → Richiedono più tempo per essere percepite.
    • Azioni rapide (es. corsa, esplosione, duello) → Devono avvenire in pochi secondi.
    • Transizioni complesse (es. cambio di ambientazione, trasformazioni) → Devono essere ben bilanciate nella durata.
  • Evitare prompt sovraccarichi
    • Se il prompt descrive troppi eventi diversi, il video potrebbe risultare confuso o alcuni dettagli potrebbero essere tralasciati.
    • Un buon metodo è pensare alla scena come se fosse girata in un solo piano sequenza: il tempo è sufficiente per un solo evento principale, con qualche piccolo dettaglio aggiuntivo.

2. Testare il Prompt con Tempi Diversi

Se hai un’idea chiara della scena ma non sei sicuro della durata giusta, puoi sperimentare con prompt che specificano il tempo dell’azione.


Esempio 1: Troppo Lungo (Descrizione eccessiva per 5s)

📝 Prompt:
“Un astronauta atterra su un pianeta alieno, esce dalla navetta, raccoglie un campione di suolo, osserva il cielo viola e nota due lune che si muovono lentamente sopra l’orizzonte.”

Problema: Troppi eventi per pochi secondi. Il modello potrebbe tagliare dettagli o farli accadere troppo in fretta.

Soluzione:
📝 Prompt ottimizzato:
“Un astronauta atterra su un pianeta alieno e osserva il cielo viola con due lune che brillano sopra l’orizzonte. La telecamera si avvicina lentamente al riflesso nel suo casco.”
→ 🎥 Perfetto per 5-10 secondi, con focus sull’atmosfera e la tensione.


Esempio 2: Adatto a un Video di 20-30s

📝 Prompt:
“Un guerriero samurai cammina in un campo di grano dorato al tramonto. Il vento muove le spighe mentre il sole illumina la sua armatura. All’improvviso, un altro samurai appare in lontananza. Si fissano per alcuni secondi, poi estraggono le loro katane e si preparano al duello. La telecamera segue i loro movimenti con un’inquadratura cinematografica, rallentando nel momento dell’attacco.”

Adatto a: 20-30 secondi, perché lascia tempo per la preparazione al duello, creando suspense e poi azione.


Esempio 3: Perfetto per 60s

📝 Prompt:
“Un viaggiatore si muove attraverso un’antica città abbandonata, esplorando le rovine coperte di vegetazione. Entra in un tempio dimenticato, dove la luce del sole filtra dalle finestre rotte, illuminando un altare coperto di polvere. La telecamera segue i suoi passi, mostrando dettagli dell’architettura distrutta e delle piante che si intrecciano alle pietre. Quando tocca l’altare, una luce blu inizia a brillare, facendo vibrare l’aria intorno a lui.”

Adatto a: 60 secondi, perché ha più eventi sequenziali che si sviluppano lentamente, con una narrazione progressiva.


3. Indicazioni Temporali nel Prompt

Se vuoi controllare meglio la velocità e la durata dell’animazione, puoi inserire parole chiave temporali nel prompt.

Prompt con Timing Preciso

  • “Lentamente” / “Pian piano” / “A rallentatore” → Aumenta la durata di un’azione.
    • “Il sole tramonta lentamente dietro le montagne, mentre le nuvole si tingono di rosa.”
  • “Rapidamente” / “In un attimo” / “Con uno scatto” → Accelera un’azione.
    • “Il gatto salta sul tavolo in un attimo, rovesciando una tazza di tè.”
  • “Dopo alcuni secondi” / “Dopo un momento di silenzio” → Aiuta a creare pause naturali.
    • “Il samurai resta immobile per qualche secondo, poi estrae la spada in un lampo.”

4. Regolare il Tempo e la Fluidità

🔹 Testa il prompt con durate diverse: Se un’azione risulta troppo veloce, prova a separare i dettagli o a ridurre gli eventi descritti.
🔹 Usa frasi corte per azioni rapide e descrizioni più lunghe per scene lente.
🔹 Specifica lo stile della telecamera (es. “un’inquadratura lunga mostra il paesaggio” vs “un montaggio veloce segue i combattenti”).


Interpretazione delle Emozioni

Sora di OpenAI non esegue una vera e propria sentiment analysis nel senso tradizionale del termine (come fanno i modelli NLP per analizzare il tono emotivo di un testo), ma incorpora un meccanismo di interpretazione del mood e delle vibes presenti nel prompt. Questo significa che il modello cerca di tradurre l’emozione implicita nel testo in una rappresentazione visiva coerente. Sora utilizza un’architettura simile a quella di DALL-E, con la capacità di interpretare il contesto emotivo del prompt e di tradurlo in elementi visivi. Ciò avviene attraverso diversi fattori:

  1. Scelta dei colori e dell’illuminazione
    • Se un prompt contiene parole come “caldo”, “accogliente”, “solare”, Sora tenderà a usare tonalità dorate e luci soffuse.
    • Parole come “oscuro”, “minaccioso”, “freddo” porteranno a ambientazioni più tetre e con luci basse.
  2. Movimento e dinamismo
    • Un prompt che descrive un’azione frenetica (“corre disperatamente tra le strade affollate”) sarà interpretato con riprese più rapide e movimenti di camera dinamici.
    • Un prompt con parole come “tranquillamente”, “fluttuando”, “lentamente” darà movimenti più fluidi e rilassati.
  3. Espressioni facciali e linguaggio del corpo
    • Se un personaggio è descritto come “felice e raggiante”, Sora cercherà di generare un volto sorridente e rilassato.
    • Se il prompt dice “sguardo preoccupato, occhi che scrutano il vuoto”, il modello enfatizzerà tensione e drammaticità.

Ecco un test che ho realizzato con SORA: ho cercato di creare uno shot di 5 secondi in bianco e nero, simulando le riprese di uno smartphone, con un’inquadratura leggermente instabile per un effetto più realistico.

Se avete trovato la generazione delle immagini con DALL-E difficoltosa troverete la generazione dei video con SORA ancor più complicata perché si aggiunge la quarta dimensione cioè il tempo. I crediti disponibili si consumano velocemente quindi non lanciate in calcolo prompt a casaccio, prima visualizzate l’immagine o meglio l’emozione nella vostra testa, poi progettate il prompt e incrociate le dita che non fa mai male lol… Non arrabbiatevi se quello che ottenete non è l’ideale, ricordatevi che il risultato AI non è per sua natura deterministico.

Se vi è piaciuta questa guida aggiungetemi tra i vostri contatti su linkedin

Banner

Releated Posts

Rap Trap Opera Classic ??? ..con Riffusion AI

L’idea? Prendere un testo rap/trap e costringere il modello FUZZ 0.8 a interpretarlo con un sound da opera…

DiByAndrea ToninMar 8, 2025

VR e Innovazione nel Gaming

La realtà virtuale (VR) nel gaming sta vivendo un periodo di forte innovazione, con continui progressi che rendono…

DiByAndrea ToninFeb 28, 2025

Come i Metallica con Riffusion AI

Riffusion è un modello di rete neurale sviluppato da Seth Forsgren e Hayk Martiros, progettato per generare musica…

DiByAndrea ToninFeb 21, 2025

MidJourney: Il Bianco e Nero Perfetto

La fotografia in bianco e nero non è solo un’arte senza tempo, ma anche una potente forma di…

DiByAndrea ToninFeb 14, 2025

Leave a Reply

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *