L’intelligenza artificiale sta effettuando notevoli progressi nel settore della generazione video, e OmniHuman-1, l’ultima innovazione di ByteDance (l’azienda che sviluppa TikTok), ne rappresenta un esempio significativo. Questo modello AI ha la capacità di produrre deepfake altamente realistici, superando molte limitazioni tecniche che in passato rendevano questi contenuti facilmente identificabili. A differenza di altri sistemi, che spesso tradiscono la loro natura artificiale con dettagli imperfetti, OmniHuman-1 riesce a generare video in cui il volto e i movimenti sembrano incredibilmente naturali, complicando la distinzione tra contenuti reali e sintetici.
Il modello necessita solamente di una singola immagine di riferimento e di una traccia audio per generare un filmato della lunghezza desiderata, permettendo anche l’adattamento del formato e della porzione del corpo visibile. È stato addestrato su circa 19.000 ore di contenuti video, sebbene ByteDance non abbia specificato le fonti del materiale utilizzato. Oltre a creare nuovi filmati, OmniHuman-1 è capace di modificare riprese esistenti, cambiando persino i movimenti delle persone presenti nel video. La qualità finale del contenuto dipende dalla risoluzione dell’immagine iniziale e il sistema può affrontare difficoltà con pose particolarmente complesse. Attualmente, resta non disponibile al pubblico.
Come funziona OmniHuman-1
OmniHuman-1 si basa su una combinazione di tecniche avanzate di intelligenza artificiale per generare video in cui il soggetto risulta estremamente naturale. A differenza dei deepfake tradizionali, che richiedono diverse immagini di riferimento, questo sistema è capace di produrre un video completo partendo da un’unica immagine e un file audio. Utilizza una rete neurale avanzata, addestrata su un vasto dataset di circa 18.700 ore di contenuti.
Uno degli aspetti più innovativi di OmniHuman-1 è la possibilità di regolare parametri come la “proporzione corporea”, che determina quanto di un corpo umano debba essere visibile nel video generato, e la lunghezza finale della clip. Questa flessibilità consente al modello di adattarsi a vari scenari, ampliando le sue applicazioni nella produzione video.
La potenza di OmniHuman-1 deriva anche dalla sua capacità di integrare input diversi, come testo, audio e pose. Tuttavia, il sistema non si limita solo a generare video, ma sincronizza anche il movimento del corpo, la sincronizzazione labiale e l’espressività facciale. Questo livello di integrazione è frutto di un addestramento complesso, basato su un ampio volume di dati, che comprende diverse modalità di espressione corporea e interazioni vocali.
Il sistema è strutturato in due componenti principali:
- Il modello OmniHuman, basato su deep learning DiT, consente il condizionamento simultaneo di modalità quali testo, immagine, audio e pose corporee.
- La strategia di addestramento “omnicomprensivo”, che adotta un processo di apprendimento a più fasi, molto dipendente dalla complessità del movimento.
Il processo di addestramento di OmniHuman-1 è progettato per ottimizzare la generazione video. Inizialmente, il sistema apprende a produrre video basati su input di bassa complessità, come testo e immagini, per poi integrare segnali audio e pose. Questo approccio “multi-condizionale” migliora le capacità del sistema e la qualità degli output generati.
Le preoccupazioni sui deepfake ultra-realistici
Pur presentando nuove opportunità per l’intrattenimento e la creazione di contenuti digitali, tale tecnologia solleva anche sfide significative riguardanti sicurezza ed etica. Negli ultimi anni, i deepfake sono stati utilizzati in campagne di disinformazione politica in vari Paesi. Ad esempio, in Taiwan è stato diffuso un audio generato dall’intelligenza artificiale in cui un politico sembrava sostenere un candidato filo-cinese, mentre in Moldavia è circolato un video falso sulle presunte dimissioni di un presidente. Anche nel settore finanziario, i deepfake sono usati per truffe sofisticate, causando perdite milionarie a svariate aziende, con imitazioni AI di dirigenti e celebrità.
Il fenomeno ha un impatto economico significativo. Secondo un rapporto di Deloitte, nel 2023 le perdite legate a frodi con deepfake hanno superato i 12 miliardi di dollari, con possibilità di raggiungere i 40 miliardi entro il 2027 negli Stati Uniti. Nonostante alcuni social network e piattaforme di ricerca stiano implementando strumenti per identificare e limitare la diffusione di contenuti falsificati, il volume di tali materiali continua a crescere rapidamente. Con l’emergere di strumenti come OmniHuman-1, tale situazione sembra destinata a intensificarsi.