DeepSeek, startup cinese recentemente emersa nel panorama dell’intelligenza artificiale, ha lanciato Janus-Pro, una nuova famiglia di modelli AI dedicati alla generazione di immagini. Secondo le informazioni rilasciate dall’azienda fondata da Liang Wenfeng, il modello più avanzato della serie promette prestazioni superiori rispetto a DALL-E 3 di OpenAI e ad altri strumenti simili, come PixArt-alpha, Emu3-Gen e Stable Diffusion XL.
Architettura Multimodale
Janus-Pro si distingue per la sua architettura multimodale, che gli consente di generare e analizzare immagini, conferendogli un livello di versatilità più elevato rispetto ai modelli concorrenti. Il modello è stato rilasciato con licenza MIT, permettendo l’uso libero per fini commerciali.
Caratteristiche Tecniche
Dal punto di vista tecnico, Janus-Pro è disponibile in diverse versioni, con parametri che variano da 1 a 7 miliardi. Questa variabilità nella complessità del modello influisce sulla qualità delle immagini generate: un numero maggiore di parametri generalmente comporta immagini più dettagliate. DeepSeek definisce Janus-Pro un “framework autoregressivo”, il che implica che il modello ha capacità sia di analisi che di generazione di immagini.
I test effettuati sui benchmark GenEval e DPG-Bench segnalano risultati significativi, mostrando che il modello Janus-Pro-7B, il più grande della famiglia, supera alcuni dei principali concorrenti come DALL-E 3. DeepSeek ha dichiarato che il disaccoppiamento della codifica visiva in percorsi separati contribuisce a risolvere i limiti delle architetture precedenti, incrementando anche la flessibilità del framework.
Disponibilità di Janus-Pro
Per chi fosse interessato a provare Janus-Pro, il modello 7B è disponibile sulla piattaforma di sviluppo Hugging Face, accessibile a questo link. Inoltre, è possibile scaricarlo per utilizzo locale da questa pagina di GitHub.
Le caratteristiche innovative di Janus-Pro segnano un passo avanti nel campo della generazione di immagini tramite intelligenza artificiale, promettendo di espandere le possibilità creative a disposizione degli utenti.