back to top

OmniHuman-1, la nuova AI di ByteDance che genera video deepfake ultra-realistici, viene spiegata

L’intelligenza artificiale sta effettuando notevoli progressi nel settore della generazione , e OmniHuman-1, l’ultima innovazione di (l’azienda che sviluppa TikTok), ne rappresenta un esempio significativo. Questo modello AI ha la capacità di produrre altamente realistici, superando molte limitazioni tecniche che in passato rendevano questi contenuti facilmente identificabili. A differenza di altri sistemi, che spesso tradiscono la loro natura artificiale con dettagli imperfetti, OmniHuman-1 riesce a generare video in cui il volto e i movimenti sembrano incredibilmente naturali, complicando la distinzione tra contenuti reali e sintetici.

Il modello necessita solamente di una singola immagine di riferimento e di una traccia audio per generare un filmato della lunghezza desiderata, permettendo anche l’adattamento del formato e della porzione del corpo visibile. È stato addestrato su circa 19.000 ore di contenuti video, sebbene ByteDance non abbia specificato le fonti del materiale utilizzato. Oltre a creare nuovi filmati, OmniHuman-1 è capace di modificare riprese esistenti, cambiando persino i movimenti delle persone presenti nel video. La qualità finale del contenuto dipende dalla risoluzione dell’immagine iniziale e il sistema può affrontare difficoltà con pose particolarmente complesse. Attualmente, resta non disponibile al pubblico.

Come funziona OmniHuman-1

OmniHuman-1 si basa su una combinazione di tecniche avanzate di intelligenza artificiale per generare video in cui il soggetto risulta estremamente naturale. A differenza dei deepfake tradizionali, che richiedono diverse immagini di riferimento, questo sistema è capace di produrre un video completo partendo da un’unica immagine e un file audio. Utilizza una rete neurale avanzata, addestrata su un vasto dataset di circa 18.700 ore di contenuti.

Uno degli aspetti più innovativi di OmniHuman-1 è la possibilità di regolare parametri come la “proporzione corporea”, che determina quanto di un corpo umano debba essere visibile nel video generato, e la lunghezza finale della clip. Questa flessibilità consente al modello di adattarsi a vari scenari, ampliando le sue nella produzione video.

La potenza di OmniHuman-1 deriva anche dalla sua capacità di integrare input diversi, come testo, audio e pose. Tuttavia, il sistema non si limita solo a generare video, ma sincronizza anche il movimento del corpo, la sincronizzazione labiale e l’espressività facciale. Questo livello di integrazione è frutto di un addestramento complesso, basato su un ampio volume di dati, che comprende diverse modalità di espressione corporea e interazioni vocali.

Il sistema è strutturato in due componenti principali:

  • Il modello OmniHuman, basato su deep learning DiT, consente il condizionamento simultaneo di modalità quali testo, immagine, audio e pose corporee.
  • La strategia di addestramento “omnicomprensivo”, che adotta un processo di apprendimento a più fasi, molto dipendente dalla complessità del movimento.

Immagine

Il processo di addestramento di OmniHuman-1 è progettato per ottimizzare la generazione video. Inizialmente, il sistema apprende a produrre video basati su input di bassa complessità, come testo e immagini, per poi integrare segnali audio e pose. Questo approccio “multi-condizionale” migliora le capacità del sistema e la qualità degli output generati.

Le preoccupazioni sui deepfake ultra-realistici

Pur presentando nuove opportunità per l’intrattenimento e la creazione di contenuti digitali, tale tecnologia solleva anche sfide significative riguardanti sicurezza ed etica. Negli ultimi anni, i deepfake sono stati utilizzati in campagne di disinformazione politica in vari Paesi. Ad esempio, in Taiwan è stato diffuso un audio generato dall’intelligenza artificiale in cui un politico sembrava sostenere un candidato filo-cinese, mentre in Moldavia è circolato un video falso sulle presunte dimissioni di un presidente. Anche nel settore finanziario, i deepfake sono usati per truffe sofisticate, causando perdite milionarie a svariate aziende, con imitazioni AI di dirigenti e celebrità.

Il fenomeno ha un impatto economico significativo. Secondo un rapporto di Deloitte, nel 2023 le perdite legate a frodi con deepfake hanno superato i 12 miliardi di dollari, con possibilità di raggiungere i 40 miliardi entro il 2027 negli Stati Uniti. Nonostante alcuni social network e piattaforme di ricerca stiano implementando strumenti per identificare e limitare la diffusione di contenuti falsificati, il volume di tali continua a crescere rapidamente. Con l’emergere di strumenti come OmniHuman-1, tale situazione sembra destinata a intensificarsi.

Fonte Verificata

GLI ULTIMI ARGOMENTI

Leggi anche

Uranio impoverito viene identificato come potenziale rischio per la salute umana e l’ambiente

L'uranio impoverito, pur essendo meno radioattivo rispetto all'uranio naturale, ha scatenato allarmi globali per i suoi impieghi militari, i possibili effetti devastanti sulla salute...

Thiophenol Identified as Promising Compound in Advanced Chemical Applications

Il tiofenolo (PhSH), noto anche come benzenetiolo, sta emergendo come un vero campione nel campo della chimica organica, con la sua formula C₆H₅SH che...

Ricercatori scoprono le proprietà straordinarie della bentonite e i suoi ampi utilizzi

La bentonite, un’argilla naturale a struttura stratificata composta principalmente da minerali argillosi del gruppo delle smectiti – con la montmorillonite come componente dominante –...
è in caricamento