Hai un prodotto valido, un’idea in testa, magari anche un cliente pronto a dire sì, ma il preventivo “vero” di uno spot (riprese, talent, location, props, post) ti fa tornare coi piedi per terra. La buona notizia è che oggi puoi costruire una pipeline credibile, ripetibile e abbastanza “da agenzia” usando AI generativa, senza trasformarti in un tecnico e senza perdere l’anima creativa del progetto. L’obiettivo di questa guida è proprio quello di mettere in fila i passaggi, distribuirli in modo equilibrato e arrivare a un video pubblicitario breve, coerente e vendibile, tagliando i costi di produzione in modo drastico.
L’idea base è semplice: prima metti ordine con un LLM (ChatGPT oppure Gemini di Google o un’alternativa gratuita come Qwen Chat), poi costruisci un kit visivo (hero character, prodotto, mood), scrivi uno script che “nasce” da quel kit, generi gli shot con un image generator, li trasformi in clip con un video generator (tipo Kling), aggiungi musica (Suno) e infine monti tutto con un editor (Premiere o alternative gratuite). Il trucco non è conoscere mille comandi, si tratta di far parlare bene tra loro i vari tool.
Brainstorming creativo
In questa fase non stai ancora “scrivendo lo spot”. Stai costruendo la testa del progetto, l’identità, target, estetica, messaggio, direzione. Qui ChatGPT va benissimo, e se vuoi un’alternativa gratuita puoi usare Qwen Chat (che nasce proprio come assistente generalista) per fare lo stesso lavoro di brainstorming.
Il modo più pratico è creare un agente (anche solo come prompt fisso) che si comporti come un planner + direttore creativo. Non deve riempirti di teoria, deve restituire una relazione leggibile e subito utilizzabile. Questa è una traccia di prompt che funziona bene, perché costringe l’LLM a fare le domande giuste e a prendere una posizione.
Agisci come stratega creativo e brand planner. Ti do nome del brand, prodotto, prezzo indicativo e canale principale (es. TikTok/IG/YT). Rispondi con una relazione operativa per un team creativo.
1. Che impressione ti fa questo brand oggi, in poche righe, senza compiacere.
2. Qual è il target principale e quali micro-target secondari hanno senso.
3. Qual è l’estetica coerente (riferimenti visivi, ritmo, tono, parole chiave).
4. Vision e mission plausibili (se non esistono, proponile).
5. Core message e promessa (cosa cambia nella vita di chi compra).
6. Obiettivo: aumentare base esistente o conquistare nuova base? Se nuova base, usa tassonomia demografica + bisogni + piacere (cosa cercano e cosa li attira).
7. Elabora: strategia creativa, concept, estetica, format consigliato, 3 angoli narrativi diversi.
8. Chiudi con: rischi creativi (no legale), checklist di coerenza e una proposta di moodboard descritta a parole.Due note pratiche, senza complicarsi la vita… dai all’agente un paio di esempi di ads che ti piacciono (anche solo descritti) e chiedigli di scegliere una direzione principale e una “di scorta”. Se l’LLM ti restituisce troppe opzioni, non è un bene perché vuol dire che non ha ancora capito dove vuoi andare (tecnicamente si difinisce alta entropia).
Kit visivo: hero character, espressioni, turnaround e prodotto
Qui costruisci la tua “bibbia” visuale. È il passaggio che fa la differenza tra un video che sembra una demo e uno che sembra una campagna. L’obiettivo è avere materiale consistente: un protagonista (o due) che puoi riconoscere da shot a shot, e un prodotto sempre leggibile, con forma e dettagli stabili.

Per farlo puoi usare diversi generatori. Se sei nell’ecosistema OpenAI, i modelli “GPT Image” (come gpt-image-1.5) sono pensati proprio per generazione e editing con buon rispetto delle istruzioni. Se invece vuoi qualcosa che punta molto sulla consistenza del personaggio in workflow multi-turn, “Nano Banana Pro” (Gemini 2.5 Flash Image) viene presentato esplicitamente con attenzione alla coerenza dei personaggi e alla generazione/trasformazione immagini. Se cerchi una strada accessibile e spesso usata anche in modalità free via piattaforme, Qwen-Image è un modello open e molto orientato a generazione ed editing con prompt lunghi.

Il modo “pro” di lavorare qui è produrre tre asset, sempre nello stesso stile. Primo, hero character turnaround con fronte, profilo, retro, tre quarti, full body. Secondo, sheet di espressioni con 8 emozioni utili alla pubblicità (neutro, sorriso, sorpresa, focus, dubbio, soddisfazione, energia, “wow”). Terzo, turnaround del prodotto: 4 angoli + un close-up delle parti che contano (texture, packaging, dettaglio distintivo). Quarto, una o più proposte di moodboard coerenti con tutto quanto è stato discusso fino ad ora.
Un prompt-tipo per l’hero che tende a dare risultati stabili è questo (adattalo al tuo caso, mantenendo invariati i tratti identitari):
Crea un hero character per uno spot pubblicitario. Stile: [3 parole], illuminazione: [3 parole], palette: [3 colori], texture: [2 parole]. Il personaggio deve restare identico in tutte le immagini.
Output richiesto: turnaround full body (frontale, profilo dx, profilo sx, retro, tre quarti dx, tre quarti sx), stesso outfit, stessa acconciatura. Poi una griglia di 8 espressioni facciali mantenendo invariati capelli, pelle, occhi, forma del viso. Sfondo pulito, nessun testo.Quando finalmente ti piace “il volto giusto”, lo salvi come riferimento e lo riusi sempre (caricandolo come immagine guida, se il tool lo permette). È qui che si abbattono tempi e revisioni, perché eviti di rigenerare da zero ogni volta.
30 secondi, 7 inquadrature, 1 end card
Qui arriva la parte divertente… trasformare strategia e visual kit in una scaletta da produzione. La soluzione pratica è tenere 7 inquadrature come 7 beat narrativi, con durate realistiche (3–5 secondi), e aggiungere una end card finale come ottavo “shot” (packshot + logo + claim). Così rispetti sia la struttura sia la durata.
A questo punto chiedi al tuo LLM di generare uno script che non sia solo testo, ma anche indicazioni visive chiare (movimento camera, cosa deve vedersi, che emozione deve passare). La cosa importante è che lo script nasca “in base a ciò che hai già deciso” (relazione + hero + prodotto + moodboard), non dal nulla.
Prompt articolato per generare lo script:
Userai la relazione creativa caricata e il kit immagini (hero character + prodotto + moodboard). Scrivi uno script per uno spot da 30 secondi, diviso in 7 inquadrature + 1 end card.
Per ogni inquadratura indicami: durata (in secondi), ambiente, azione, camera (es. close-up, medio, wide), dettaglio chiave del prodotto, testo in sovrimpressione (se serve, massimo 6 parole), audio/voce (tono, non legale), e obiettivo emotivo.
Vincoli: estetica coerente con la moodboard, personaggio sempre riconoscibile, prodotto sempre leggibile. Linguaggio semplice, ritmo social-friendly.
Output finale: tabella “Shot list” e poi una versione narrativa scorrevole dello spot.Generare gli shot
Ora torni al generatore immagini e produci gli 8 visual definitivi: 7 scene + end card. Questo è il punto dove molti si perdono, perché generano “tante immagini belle” ma non “le immagini giuste, tutte compatibili”. La soluzione è lavorare come se stessi dirigendo una mini-produzione con lo stesso cast, stesso stile, stessa luce, stessi dettagli ripetuti.
Quando uno shot non è consistente, non conviene cambiare tutto, conviene essere chirurgici: stessa descrizione del personaggio, stesso outfit, e modifichi solo ciò che serve (espressione, gesto, oggetto in mano, sfondo). Se il tool supporta editing su immagine, sfruttalo perché ti fa risparmiare un’enormità rispetto al rigenerare. Qui GPT Image e Qwen-Image sono spesso usati anche in modalità “edit” (Modifica Immagine), e Nano Banana Pro nasce proprio per flussi conversazionali multi-turn con trasformazioni mirate. Per favorire la consistenza si può utilizzare il gen-ID che alcuni text-to-img conservano nella loro memoria.
Una volta che hai tutti gli shot, ti consiglio di creare un “foglio stile”. Volendo puoi cambiare al volo il mood del visual, da realistico a disegnato, come di seguito. Il bello di questo workflow è quello di essere estremamente flessibile. Ovviamente adatta il numero di shot alla narrazione, gli 8 visual che ho indicato in questo scritto sono solo un esempio.

Meta prompting per Kling AI
In pratica, per ogni shot fai un prompt che descriva micro-movimenti credibili (camera e soggetti) e che non distrugga la scena. È qui che un “meta prompt” ti salva, definisci una struttura e la compili 8 volte.
Ecco una struttura che funziona bene perché è concreta:
Usa come input l’immagine Shot X.
Durata clip: 8 secondi. Mantieni identici volto, outfit e prodotto.
Movimento camera: [es. dolly-in lento / pan leggero / handheld minimo].
Movimento soggetto: [es. micro-sorriso, battito di ciglia, mano che ruota il prodotto].
Obiettivo: [es. far notare texture, far leggere packaging, enfatizzare ‘wow’].
Stile: [le 6–10 parole del tuo foglio stile].
Evita: deformazioni del prodotto, cambi outfit, cambio volto, testo che appare casualmente.Se uno shot “drifta” (cambia faccia o cambia prodotto), non buttare via tutto, piuttosto riduci il movimento. In generale, più chiedi movimenti estremi, più rischi inconsistenze. Un dolly-in lento e un gesto piccolo ti portano molto più lontano di un’azione complessa.
Colonna sonora
La musica è spesso la scorciatoia più efficace per far sembrare “finito” uno spot: dà ritmo, intenzione e qualità percepita anche quando qualche immagine non è ancora perfetta. Suno, in questo senso, è una delle soluzioni più immediate per generare tracce partendo da un prompt, e puoi usarlo tranquillamente anche in fase di bozza per provare direzioni diverse senza bruciarti budget.
Quando scrivi il prompt musicale, non serve fare il poeta. Serve essere chiari e utili. indica il mood, un bpm indicativo, gli strumenti principali, quanta energia vuoi e soprattutto che sensazione deve lasciare addosso in relazione al prodotto. Una skincare minimal, pulita, “da vetro e luce morbida”, difficilmente regge un drop EDM aggressivo: rischi di farla sembrare urlata o cheap. Un energy drink, al contrario, vive di spinta e di impatto: lì una ritmica più serrata e una tensione crescente funzionano perché sostengono l’idea di energia.
E non pensare alla musica come all’ultimo step “obbligatorio”. Puoi continuare a giocare con le generazioni visive anche mentre cerchi la traccia giusta perché spesso uno shot, un’espressione del personaggio o un dettaglio di luce ti suggeriscono subito se lo spot vuole un beat più secco, un suono più elegante o qualcosa di più emotivo. In pratica, immagini e musica si inseguono e si correggono a vicenda, e questo ti fa arrivare più in fretta a un risultato credibile.

Montaggio video
Quando hai le 8 clip e una traccia audio, il montaggio è relativamente lineare. Premiere è lo standard per molti, ma se lo scopo è abbattere i costi, ha senso conoscere alternative gratuite.
DaVinci Resolve è spesso indicato come opzione free molto potente (specialmente per color e finishing), Kdenlive è un nome solido e dichiaratamente free/open. Per lavori rapidi e social-first, anche CapCut è un valido editor gratuito con workflow semplice.
Il consiglio “da produzione” qui è uno solo: non salvare il montaggio per ultimo come se fosse un’operazione meccanica. Monta una prima bozza anche grezza appena hai 3–4 clip, perché ti farà scoprire subito se il ritmo funziona e quali shot mancano davvero.
Alleniamo la pipeline
Immagina di ricevere un brief lunedì mattina, con consegna a fine settimana. Un buon modo per diventare veloce è allenarti su richieste “realistiche”, con vincoli e aspettative chiare.
Il primo esercizio è il classico “brand che esiste già”: scegli una piccola coffee roastery locale e inventa un lancio di brand in edizione limitata. Il cliente vuole un mood premium, ma anche caldo e umano.
Il secondo è “prodotto tech semplice ma noioso”: un power bank. Qui la sfida è costruire un hero character e una mini-storia che renda interessante una cosa oggettivamente utilitaria. Se riesci qui, riesci ovunque.
Il terzo è “beauty low budget”: crema viso o siero. Il cliente ti chiede eleganza, pelle credibile, texture del prodotto leggibile e un finale che sembri da brand serio. Questo esercizio ti allena soprattutto sul turnaround del prodotto e sul controllo di luce e dettagli.
Il quarto è “app in abbonamento”: un’app di meditazione o fitness. Qui il prodotto non è fisico, quindi devi usare UI mockup e scene di utilizzo. Ti alleni a far capire il valore in pochi secondi, senza trasformare lo spot in una schermata statica.
Il quinto è “food social”: snack proteico o salsa piccante. Ritmo veloce, close-up appetitosi, humour leggero. È l’esercizio perfetto per testare quanto sei capace di mantenere consistenza visiva anche quando cambiano tanto gli ambienti e le inquadrature.
Se l’articolo ti è piaciuto restiamo in contatto su linkedin a https://www.linkedin.com/in/andreatonin/, c’è ancora tanto da dire e scrivere sulla AI!
#concetto_di_pipeline #agente_creativo #brainstorming_guidato #target_e_tassonomia #hero_character_consistente #turnaround_prodotto #script_30_secondi #shot_list #image_to_video #montaggio_low_cost
Nerd per passione e per professione da oltre 30 anni, lavoro nel mondo dell’innovazione tecnologica come CTO e consulente, progettando ecosistemi software complessi e scalabili. Parallelamente mi dedico alla formazione informatica, condividendo esperienze e buone pratiche maturate sul campo.
Scopri di più sulla mia attività di consulenza su lucedigitale.com Mi trovi anche su LinkedIn



















