Ecco il primo video musicale realizzato interamente con l’intelligenza artificiale, SORA di OpenAI. Si tratta del video del brano “The Hardest Part” di Washed Out
Questo video musicale è stato interamente girato utilizzando l’intelligenza artificiale, in particolare SORA, un’IA sviluppata da OpenAI per la creazione di video da testo.
Il video, della durata di 4 minuti, accompagna il brano “The Hardest Part” di Washed Out, pseudonimo di Ernest Weatherly Greenem, e anticipa il nuovo album in uscita il 28 giugno.
Le immagini, realizzate interamente con l’IA, raccontano la storia di una coppia che si incontra in una scuola negli anni ’80, si sposa e ha un figlio.
Una svolta nel mondo dei video
Questo video rappresenta una svolta nella realizzazione di video con l’IA, poiché non richiede l’utilizzo di attori o ambientazioni particolari, riducendo così significativamente i costi di produzione.
Il regista del video è Paul Trillo, uno dei video creator che hanno avuto accesso esclusivo a Sora.
Come è nato il primo video musicale con la IA
Utilizzando questa tecnologia, Trillo ha potuto esplorare vari scenari relativamente alla vita della coppia in più luoghi. In questo modo ha potuto creare situazione diverse, tutte realizzate via testo.
Il video è stato realizzato e completato in circa un mese e mezzo. Quello che si vede è il frutto del montaggio di 55 clip del video scelti tra le circa 700 opzioni che ha generato Sora.
Per generare clip video utili e usabili, Greene aveva bisogno di scrivere istruzioni con dettagli sufficientemente specifici non solo sull’immagine stessa, ma anche sugli angoli di ripresa e sui movimenti dei personaggi.
Cosa è SORA e a cosa serve
SORA, acronimo di Speech-Optimized Rendering of Animation, è una tecnologia avanzata sviluppata da OpenAI che si propone di rivoluzionare il modo in cui i video vengono creati a partire da testo.
L’obiettivo principale di SORA è di trasformare direttamente il testo in animazioni video parlate, ottimizzando il processo per renderlo il più naturale e realistico possibile.
Questo viene realizzato attraverso una combinazione di tecniche di intelligenza artificiale avanzate, incluse:
- Comprensione del testo: il sistema deve innanzitutto comprendere il testo inserito, interpretando il suo significato, il contesto e le intenzioni dietro le parole.
- Generazione di script visivi: successivamente, SORA può convertire il testo in uno storyboard o in un script visivo, determinando come gli elementi visivi debbano essere organizzati e animati.
- Sintesi vocale e animazione dei personaggi: parallelamente alla creazione visiva, il sistema utilizza tecniche di sintesi vocale per generare il parlato che accompagna le immagini, sincronizzando il movimento delle labbra dei personaggi animati con l’audio.
- Rendering finale: alla fine, il tutto viene reso in un video completo, con passaggi fluidi, espressioni facciali realistiche e movimenti che sembrano molto naturali.
È evidente che l’impiego di questa tecnologia apre a nuove possibilità e opportunità. Tuttavia, ci sono anche rischi significativi che questa tecnologia può comportare. Un esempio lampante è il deepfake.
In ogni caso, ci troviamo di fronte a una nuova frontiera che va esplorata con grande attenzione.
Cosa ne pensate?