Prompt Engineering per SORA AI

Sora è un modello di intelligenza artificiale sviluppato da OpenAI che consente la generazione di video realistici a partire da descrizioni testuali.

Il nome “Sora” deriva dalla parola giapponese per “cielo”, a simboleggiare il suo “potenziale creativo illimitato”. La tecnologia alla base di Sora è un adattamento di quella utilizzata nel modello DALL·E 3, anch’esso sviluppato da OpenAI. Il sistema è stato addestrato utilizzando video disponibili pubblicamente e video con diritti d’autore concessi in licenza per questo scopo, sebbene OpenAI non abbia rivelato il numero esatto o le fonti specifiche dei video utilizzati.

Il 9 dicembre 2024, OpenAI ha reso Sora disponibile al pubblico per gli abbonati a ChatGPT Plus e ChatGPT Pro. Gli abbonati Plus possono creare fino a 50 video prioritari al mese con una risoluzione fino a 720p e una durata massima di 5 secondi, mentre gli abbonati Pro hanno accesso a 500 video prioritari, generazioni illimitate in modalità “relaxed”, risoluzione fino a 1080p, durata massima di 20 secondi e la possibilità di effettuare fino a cinque generazioni contemporaneamente. Inoltre, gli abbonati Pro possono scaricare i video senza watermark.

OpenAI ha implementato misure di sicurezza per prevenire l’uso improprio di Sora, inclusa l’aggiunta di watermark visibili e metadati C2PA ai video generati per indicare che sono stati creati dall’IA. Inoltre, sono stati posti limiti alle richieste di testo per evitare la generazione di contenuti sessuali, violenti, di odio o che coinvolgono celebrità, nonché contenuti con proprietà intellettuale preesistente.

Strategie di Prompt Engineering

Alcune strategie efficaci per la generazione di prompt ottimali in Sora includono:

Descrizioni dettagliate: Specificare elementi come il movimento della camera, le condizioni di illuminazione e le espressioni facciali.
Indicazioni temporali: Utilizzare parole chiave che indichino lo sviluppo temporale della scena, come “inizia lentamente”, “accelera gradualmente” o “termina con una dissolvenza”.
Coerenza narrativa: Evitare prompt ambigui o contraddittori che potrebbero generare transizioni irrealistiche o movimenti innaturali.
Uso di riferimenti cinematografici: Menzionare stili visivi noti, come “stile noir anni ’50” o “estetica cyberpunk”.

Somiglianze con DALL-E

Nonostante le differenze nella tipologia di output, esistono molte analogie tra il prompt engineering per Sora e quello per DALL-E:

Precisione semantica: Entrambi i modelli rispondono meglio a descrizioni dettagliate e ben strutturate.
Uso delle relazioni spaziali: In DALL-E, specificare la posizione degli oggetti migliora la composizione dell’immagine; in Sora, la gestione dello spazio influisce sulla coerenza del movimento.
Adattabilità stilistica: Come in DALL-E, anche Sora può replicare stili visivi noti se descritti con precisione nel prompt.
Limitazioni nella fisica: Entrambi i modelli possono generare risultati incoerenti se le istruzioni non rispettano principi realistici.

Prompt Semplici

1. Scena Naturale

📝 Prompt:
“Un campo di girasoli ondeggia dolcemente sotto la brezza del tramonto. Il sole arancione illumina i petali dorati, mentre un gruppo di api vola di fiore in fiore. La telecamera si muove lentamente, catturando i dettagli dei fiori e il cielo colorato.”

📌 Obiettivo: Generare un video con movimenti naturali e una luce suggestiva.

2. Scena Urbana Notturna

📝 Prompt:
“Una strada di Tokyo di notte, con luci al neon che riflettono sulla strada bagnata dalla pioggia. Persone camminano con ombrelli trasparenti, mentre le insegne luminose lampeggiano. La telecamera segue un taxi giallo che passa lentamente.”

📌 Obiettivo: Creare un’ambientazione urbana realistica con atmosfera cinematografica.

3. Azione Dinamica

📝 Prompt:
“Un motociclista sfreccia lungo una strada di montagna, superando tornanti con agilità. Il vento muove la sua giacca di pelle, mentre il sole tramonta dietro le cime innevate. La telecamera segue da vicino, creando una sensazione di velocità.”

📌 Obiettivo: Simulare una scena dinamica con movimenti realistici della telecamera.

4. Scena Fantascientifica

📝 Prompt:
“Un’astronave futuristica atterra su un pianeta alieno con cieli viola e montagne luminose. Creature aliene osservano curiose mentre il portellone della nave si apre, rivelando un astronauta con una tuta hi-tech. La telecamera si avvicina lentamente alla scena.”

📌 Obiettivo: Creare un’ambientazione sci-fi con dettagli visivi ricchi.

5. Animale in Movimento

📝 Prompt:
“Un piccolo gatto bianco e nero gioca con una foglia d’autunno in un parco. Salta, la insegue e la cattura con le zampe. La telecamera segue i suoi movimenti con angolazioni morbide e naturali.”

📌 Obiettivo: Riprodurre un comportamento animale realistico con dettagli espressivi.

Prompt Avanzati

1. Cyberpunk Metropolitano

📝 Prompt:
“Una città cyberpunk nel 2095, illuminata da ologrammi pubblicitari e luci al neon blu e rosa. La pioggia cade leggera, creando riflessi vibranti sulle strade di asfalto bagnato. Un detective con un trench nero e un occhio cibernetico cammina tra la folla, mentre droni di sorveglianza sorvolano il cielo. La telecamera si muove con un’inquadratura in stile noir, seguendo il detective tra vicoli fumosi e insegne lampeggianti in kanji.”