Un team dell’EPFL ha sviluppato 4M, un framework di formazione di nuova generazione per l’IA. È disponibile gratuitamente e può essere utilizzato per sviluppare modelli di base multimodali versatili e scalabili che vanno ben oltre il linguaggio.
I Large Language Models (LLM) come ChatGPT di OpenAI hanno trasformato il modo in cui molti di noi svolgono le attività quotidiane. Questi robot di conversazione basati sull’intelligenza artificiale generativa vengono addestrati con il linguaggio - centinaia di terabyte di testo "copiato" da Internet e con miliardi di parametri.
In futuro, i "motori" che alimenteranno l’intelligenza artificiale generativa saranno modelli multimodali non solo addestrati sul testo, ma anche in grado di elaborare vari altri tipi di informazioni, tra cui immagini, video, suoni ed elementi provenienti da altri domini come i dati biologici o atmosferici.
Fino a poco tempo fa, l’addestramento di un singolo modello per gestire un ampio insieme di modalità - gli input - e di compiti - gli output - era irto di difficoltà. Ad esempio, l’addestramento spesso comportava prestazioni ridotte rispetto ai modelli a compito singolo e in genere richiedeva strategie attente per ridurre la perdita di qualità e massimizzare l’accuratezza. Inoltre, l’addestramento di una rete su modalità come il testo, le immagini o i video, che variano notevolmente, presentava ulteriori difficoltà e spesso il modello trascurava erroneamente informazioni essenziali relative a determinate modalità.
Modellazione multimodale
Nell’ambito di un progetto pluriennale sostenuto da Apple in California, un team del Visual Intelligence and Learning Laboratory (VILAB) della Facoltà di Informatica e Comunicazione (IC) dell’EPFL ha sviluppato 4M, per la modellazione mascherata massivamente multimodale, una delle reti neurali singole più avanzate al mondo, in grado di elaborare una vasta gamma di compiti e modalità.
I ricercatori hanno descritto i progressi compiuti da 4M rispetto alle capacità dei modelli esistenti in un documento presentato a dicembre a NeurIPS 2024, la conferenza annuale sui sistemi neurali di elaborazione delle informazioni (per ulteriori informazioni tecniche, vedere in fondo all’articolo).
"Grazie a 4M, ora disponiamo di un modello ricco in grado di interpretare più del semplice linguaggio. Perché è importante? Una delle critiche più frequenti ai LLM è che la loro conoscenza è infondata perché i dati di addestramento sono limitati al linguaggio", spiega il professore assistente Amir Zamir, responsabile del VILAB.
"Quando passiamo alla modellazione multimodale, non dobbiamo limitarci al linguaggio. Possiamo coinvolgere altre modalità, compresi i sensori. Per esempio, possiamo comunicare di un’arancia usando la parola ’arancia’, come nei modelli linguistici, ma anche attraverso un insieme di pixel, che indicano l’aspetto dell’arancia, o attraverso il senso del tatto, che cattura la sensazione di toccare un’arancia. Se si mettono insieme diverse modalità, si ottiene un’incapsulazione più completa della realtà fisica che stiamo cercando di modellare", continua.
Verso un modello generico open source per un uso diffuso
Nonostante questi progressi impressionanti, Amir Zamir sostiene che lo sviluppo del 4M ha presentato alcune sfide curiose, tra cui il fatto che il modello non sviluppa una rappresentazione veramente unificata tra le modalità, e ha una sua teoria sul perché.
"Pensiamo che segretamente, sotto il cofano, i modelli stiano imbrogliando e creando un piccolo insieme di modelli indipendenti. Un insieme di parametri risolve un problema, un altro insieme di parametri ne risolve un altro, e collettivamente sembrano risolvere il problema generale. Ma in realtà non unificano le loro conoscenze in modo da consentire una rappresentazione compatta e congiunta dell’ambiente, che sarebbe un buon portale per il mondo".
Il team del VILAB sta continuando a lavorare sulla strutturazione e sull’unificazione del 4M, con l’obiettivo di sviluppare un’architettura open source generica, che consenta agli esperti di altri settori di adattarla alle loro esigenze specifiche, come la modellazione del clima o la ricerca biomedica. Sta inoltre lavorando su altri aspetti importanti, come l’aumento della scalabilità e i metodi di specializzazione dei modelli in base ai contesti di impiego.
"Il bello dell’accesso aperto è che le persone possono adattare il modello a se stesse con i propri dati e le proprie specifiche. Il 4M arriva al momento giusto e siamo particolarmente entusiasti che altre aree adottino questa linea di modellazione per i loro casi d’uso specifici. Non vediamo l’ora di vedere dove ci porterà. Ma ci sono ancora molte sfide e molto da fare", affermano Oguzhan Fatih Kar e Roman Bachmann, assistenti di dottorato presso il VILAB e coautori dell’articolo.
Secondo Amir Zamir, l’esperienza di 4M e gli affascinanti problemi su cui il team continua a lavorare sollevano interessanti domande sul futuro sviluppo dei modelli di fondazione. "Come esseri umani, abbiamo cinque sensi principali. Inoltre, impariamo in modo efficiente il linguaggio, che aggiunge caratteristiche e struttura alla conoscenza già radicata in questi altri sensi. Per l’IA attuale è l’opposto. Abbiamo modelli linguistici senza accesso sensoriale al mondo, ma che vengono addestrati utilizzando dati e risorse di calcolo colossali. Il nostro obiettivo è studiare il ruolo della multimodalità e sviluppare un modello universale fondato che possa essere utilizzato efficacemente a valle".
Il progetto 4M estende le capacità dei modelli esistenti in una serie di aree chiave:
- Modalità: 4M offre nuove capacità, come la previsione di decine di modalità da decine di altre, il recupero cross-modale, la generazione controllabile e la robustezza delle prestazioni immediate. Ha dimostrato in modo convincente che un singolo modello può risolvere decine di compiti diversi senza alcuna perdita di prestazioni rispetto ai modelli dedicati e all’avanguardia per singolo compito.
- Diversità: 4M supporta diverse modalità e dati più strutturati, come pose umane, istanze SAM e metadati per una generazione controllabile.
- Tokenisation: 4M studia la tokenizzazione discreta di varie modalità, come l’incorporazione globale dell’immagine, le pose umane e la semantica.
- Scala: il modello pubblico è stato esteso a 3 miliardi di parametri e addestrato su oltre 500 miliardi di token.
- Co-training: 4M dimostra il co-training simultaneo nella visione e nella modellazione linguistica.