Riffusion è un modello di rete neurale sviluppato da Seth Forsgren e Hayk Martiros, progettato per generare musica utilizzando immagini del suono anziché audio. È stato creato come una specializzazione di Stable Diffusion, un modello open-source esistente per la generazione di immagini da prompt testuali, applicato ai spettrogrammi. Questo consente al modello di utilizzare prompt testuali per generare file immagine, che possono essere convertiti in file audio tramite una trasformata di Fourier inversa. Sebbene questi file siano di solito di pochi secondi, il modello può anche interpolare tra diversi file per creare transizioni fluide. Il modello è stato reso disponibile il 15 dicembre 2022, con il codice liberamente accessibile su GitHub.
Nel gennaio 2025, Riffusion ha lanciato una piattaforma web gratuita che permette a chiunque di creare musica originale utilizzando l’intelligenza artificiale. Il nuovo modello AI, chiamato Fuzz, è in grado di generare canzoni complete a partire da descrizioni testuali, clip audio o prompt visivi. Una caratteristica distintiva è la capacità di apprendere le preferenze musicali individuali degli utenti nel tempo, offrendo un’esperienza creativa sempre più personalizzata.
La piattaforma è attualmente disponibile gratuitamente a livello globale, con un’interfaccia intuitiva che si rivolge sia ai musicisti professionisti che agli appassionati occasionali. Riffusion ha anche collaborato con artisti umani attraverso un “Accordo con Artisti di Fiducia”, offrendo loro accesso anticipato a nuove funzionalità in cambio di feedback, a condizione che non siano associati a organizzazioni che si oppongono a Riffusion.
Per Riffusion, il prompt engineering si concentra sulla generazione di musica utilizzando descrizioni testuali. Poiché Riffusion converte i prompt in spettrogrammi (immagini del suono), è essenziale essere chiari e dettagliati per ottenere i migliori risultati musicali.
Uno spettrogramma si ottiene, di solito, suddividendo l’intervallo di tempo totale (cioè quello relativo all’intera forma d’onda da analizzare) in sottointervalli uguali (detti finestre temporali) di durata da 5 a 10 ms (per gli spettrogrammi riportati nelle figure sono state usate finestre di circa 9,7 ms) e calcolando la trasformata di Fourier della parte di forma d’onda contenuta in ciascuna finestra (solitamente si usa la trasformata veloce di Fourier, o FFT), che fornisce l’intensità del suono in funzione della frequenza. Le trasformate di Fourier, relative alle diverse finestre temporali, vengono poi assemblate a formare lo spettrogramma.

Dopo questa cosa NERD di seguito vediamo come si scrivere un buon prompt per Riffusion.
Definisci il Genere Musicale
Inizia specificando il genere o lo stile musicale che desideri. Alcuni esempi:
rock classico anni '70
hip hop lo-fi rilassante
musica orchestrale epica
jazz fusion contemporaneo
Descrivi il Mood o l’Atmosfera
Aggiungi parole che indicano l’emozione o l’atmosfera desiderata:
melanconico e riflessivo
energico e motivante
misterioso e ipnotico
festoso e vivace
Specifica gli Strumenti
Puoi indicare quali strumenti devono essere predominanti:
chitarra elettrica con riverbero
pianoforte delicato e archi
batteria elettronica e basso profondo
sassofono jazz e contrabbasso
Dettagli sul Tempo e il Ritmo
Indica il tempo o il ritmo per definire la velocità e la dinamica della musica:
tempo lento e rilassante (60 BPM)
ritmo veloce e ballabile (130 BPM)
battiti sincopati e complessi
Effetti Sonori e Atmosferici
Aggiungi effetti per arricchire l’atmosfera sonora:
eco spaziale e riverbero profondo
rumore di pioggia in sottofondo
effetti elettronici psichedelici
Struttura della Composizione (Facoltativo)
Se desideri una struttura specifica, come un’introduzione lenta o un crescendo, puoi indicarlo:
introduzione soft con pianoforte, crescendo con archi
versi calmi, ritornelli potenti
Esempi Pratici
jazz rilassante con pianoforte e sassofono, atmosfera notturna e malinconica
musica elettronica psichedelica con ritmo veloce (140 BPM), bassi potenti e synth futuristici, eco spaziale e riverbero profondo, atmosfera ipnotica e misteriosa
colonna sonora epica orchestrale, archi drammatici e percussioni potenti, crescendo emotivo, atmosfera eroica e maestosa
duetto romantico tra voce femminile dolce e voce maschile profonda, accompagnamento di pianoforte delicato e archi leggeri, melodia emozionante e armonie intrecciate, atmosfera intima e malinconica, ritmo lento (70 BPM), eco leggero per un effetto sognante
duetto pop energico tra voce femminile brillante e voce maschile potente, beat elettronico ritmato con basso pulsante, synth melodici e chitarre elettriche leggere, ritornello coinvolgente e strofe sincopate, atmosfera festosa e motivante, ritmo veloce (120 BPM), effetti vocali moderni
duetto operistico tra soprano e tenore, accompagnamento orchestrale con archi drammatici e pianoforte classico, melodia solenne e potente, armonie vocali emozionanti, atmosfera epica e maestosa, ritmo moderato (80 BPM), riverbero naturale per un effetto teatrale
Suggerimenti per Personalizzare:
- Puoi cambiare il tipo di voci (es.
voce femminile roca e voce maschile morbida
). - Modifica l’accompagnamento (es.
chitarra acustica
invece dipianoforte
). - Sperimenta con l’atmosfera (
drammatica
,gioiosa
,misteriosa
) per ottenere diverse emozioni.
Come i Metallica nel loro periodo Trash Metal
(Prima che si tagliassero i capelli)
Ed eccoci al motivo per il qualer forse vi trovate qui, vi piacerebbe generare la nuova “Master Of Puppet”? O preferite “Battery”? Vediamo di analizzare le canzoni dei Metallica, come sono strutturate? Ecco qualche appunto sul quale riflettere:
- Bridge Estesi e Sezioni Strumentali: Le parti strumentali sono estese e spesso includono cambi di tempo e atmosfera (es. l’intermezzo melodico in “Master of Puppets”).
- Strutture Progressive: Le canzoni si sviluppano come suite musicali, con sezioni diverse che evolvono in modo fluido (es. la title track “Master of Puppets”).
- Intro Strumentali Elaborate: Spesso introducono i brani con riff complessi o assoli melodici (es. “Battery” e “Damage, Inc.”)
- Riff Complessi e Potenti: L’album è caratterizzato da riff potenti e intricati, spesso suonati a velocità elevate con un uso abbondante di palm muting.
- Cambio di Tempi e Dinamiche: Le canzoni alternano velocità elevate a sezioni più lente e atmosferiche, creando un contrasto dinamico che aumenta l’impatto emotivo.
- Assoli Tecnici e Melodici: Kirk Hammett utilizza assoli tecnici con un uso distintivo del wah-wah, mantenendo però un forte senso melodico.
- James Hetfield, principale autore dei testi, esplora temi maturi e complessi come dipendenza da droghe, guerra, reclusione mentale.
- Oscurità e Aggressività: Uso di un tono oscuro e aggressivo, sia nei testi che nella musica.
- Contrasti Emotivi: Un’altalena tra momenti di rabbia intensa a sezioni malinconiche e riflessive (come l’intermezzo melodico in “Master of Puppets”).
Thrash metal
- Tempo: 200 BPM, typical of thrash metal speed.
- Guitar Tone: Heavy distortion with a scooped mid EQ for a crushing, aggressive sound.
- Bass: Prominent, with a gritty overdrive.
- Vocals: Aggressive and growling in verses, melodic yet powerful in choruses.
- Drums: Fast double bass pedal with intricate fills and syncopated snare patterns.
[Intro]
(
Riff: Fast, galloping thrash riff with heavy palm muting.
Drums: Double bass kicks at high speed, aggressive snare hits.
Atmosphere: Dark, intense, building tension.
)
Shadows creeping, whispering lies,
Puppeteer’s strings, no place to hide,
Bound and broken, enslaved by design,
Your will is theirs, your soul they confine.
[Pre-Chorus]
(
Riff: Rising melodic lead over a chugging rhythm.
Vocals: Intense, building tension
)
Twist and turn, no escape,
Fighting the chains that bind,
Awaken the fire within,
Sever the strings that control the mind.
[Chorus]
(
Riff: Powerful, anthemic chords with harmonized leads.
Vocals: Melodic yet powerful
)
Strings of dominion, cut them away,
Break from the shadows, find your own way,
Masters fall, their power decays,
Freedom's flame, eternally ablaze.
[Bridge]
(
Riff: Slow, crushing breakdown with syncopated rhythms.
Drums: Heavy tom fills, giving a marching feel.
Atmosphere: Dark and ominous, building anticipation.
)
[Melodic Interlude]
(
Guitar Harmony: Clean arpeggios transitioning into soaring harmonized leads.
Mood: Reflective and melancholic, leading to an emotional buildup.
)
[Guitar Solo]
(
-Style: Fast and technical with melodic phrasing, using:
- Techniques: Sweeping arpeggios, rapid alternate picking, tapping.
- Effects: Wah-wah for expressive bends.
- Structure:
- Starts slow and melodic, then builds into a rapid, frenzied climax.
- Ends with a sustained, high-pitched bend, leading back to the chorus.
)
[Chorus]
(
Riff: Reprise of the powerful chorus riff with added harmony.
Vocals: Triumphant and defiant
)
Strings of dominion, cut them away,
Break from the shadows, find your own way,
Masters fall, their power decays,
Freedom's flame, eternally ablaze.
[Outro]
(
Riff: Fast tremolo picking fading out
Atmosphere: Dark and unresolved, leaving a sense of lingering defiance.
)
Non è un prompt o una lyric, è di fatto un agente/chatbot che imita lo stile dei Metallica. Una delle cose che ho apprezzato di Riffusion è stata la sua capacità di rispettare le mie indicazioni quasi al 90%.
Ecco la cover del nostro album, rigorosamente AI GENERATED con DALL-E

Siete pronti a diventare i prossimi James Hetfield? Se l’articolo vi è piaciuto sottoscrivere il nostro RSS FEED!
Nerd per passione e per professione da 30 anni, mi occupo di progettazione di ecosistemi software di alto livello come CTO e di docenze in ambito informatico. Mi potete contattare dal mio profilo linkedin a https://www.linkedin.com/in/andreatonin