I ricercatori dell’EPFL hanno sviluppato un nuovo modello modulare di apprendimento automatico per un processo decisionale flessibile. Questo modello è in grado di inserire qualsiasi tipo di testo, video, immagine, suono e serie temporale, per poi produrre qualsiasi numero o combinazione di previsioni.
Tutti hanno sentito parlare di modelli linguistici di grandi dimensioni (LLM). Si tratta di modelli di deep learning su larga scala addestrati su enormi quantità di testo che costituiscono la base di chatbot come ChatGPT di OpenAI. I modelli multimodali (MM) di nuova generazione possono apprendere da input non testuali, come video, immagini e suoni.
La creazione di modelli multimodali su scala ridotta solleva sfide importanti, tra cui l’affidabilità di fronte alla mancanza di informazioni non casuali. Si tratta di informazioni che non sono disponibili per un modello, spesso a causa della disponibilità distorta di risorse. È quindi essenziale garantire che il modello non apprenda modelli di assenza distorti quando fa le sue previsioni.
MultiModN aggi ra il problema
Per ovviare a questo problema, i ricercatori del Machine Learning for Education Laboratory (ML4ED) e del Machine Learning and Optimisation Laboratory (MLO) della Facoltà di Informatica e Comunicazione dell’EPFL hanno sviluppato e testato l’esatto contrario di un grande modello linguistico.
Creato da Mary-Anne Hartley, responsabile del Laboratorio per le tecnologie intelligenti per la salute globale ospitato congiuntamente dal Laboratorio MLO e dalla Yale School of Medicine, e da Tanja Käser, responsabile del Laboratorio ML4ED, MultiModN è un modello multimodale modulare unico nel suo genere, presentato di recente alla conferenza NeurIPS2023.
Come gli attuali modelli multimodali, MultiModN può apprendere da testi, immagini, video e suoni. A differenza dei modelli multimodali esistenti, MultiModN è costituito da una serie di moduli più piccoli, autonomi e specifici per l’input, che possono essere selezionati in base alle informazioni disponibili e poi concatenati in una sequenza di qualsiasi numero, combinazione o tipo di input. Può quindi produrre qualsiasi numero o combinazione di previsioni.
"Abbiamo valutato MultiModN in dieci compiti reali, tra cui il supporto diagnostico medico, la previsione delle prestazioni scolastiche e le previsioni meteorologiche. Grazie a questi esperimenti, riteniamo che MultiModN sia il primo approccio alla modellazione multimodale intrinsecamente interpretabile e resistente ai dati mancanti non casuali (NRM)", spiega Vinitra Swamy, dottoranda presso i laboratori ML4ED e MLO e co-primo autore del progetto.
Un primo caso d’uso: il processo decisionale in campo medico
Il primo caso d’uso di MultiModN sarà un sistema di supporto alle decisioni cliniche per il personale medico in ambienti con poche risorse. Nell’assistenza sanitaria, i dati clinici sono spesso mancanti, forse a causa della scarsità di risorse (un paziente non può permettersi il test) o dell’abbondanza di risorse (il test è ridondante a causa di un test superiore che è stato eseguito). MultiModN può imparare da questi dati reali senza adottare i suoi pregiudizi e adattare le sue previsioni a qualsiasi numero o combinazione di input.
"L’assenza è una caratteristica dei dati in ambienti con scarse risorse. Quando i modelli apprendono questi modelli di assenza, possono codificare delle distorsioni nelle loro previsioni. La necessità di flessibilità di fronte a risorse imprevedibilmente disponibili è all’origine di MultiModN", spiega Mary-Anne Hartley, che è anche medico.
Dal laboratorio alla realtà
La pubblicazione, tuttavia, è solo la prima fase dell’implementazione. Mary-Anne Hartley sta collaborando con i colleghi del Centre hospitalier universitaire vaudois ( CHUV ) e dell’Inselspital, l’ospedale universitario di Berna uBern, per condurre studi clinici incentrati sulla diagnosi di polmonite e tubercolosi in contesti a basse risorse, reclutando migliaia di pazienti in Sudafrica, Tanzania, Namibia e Benin.
I team di ricerca hanno intrapreso un’importante iniziativa di formazione per insegnare a più di 100 medici come raccogliere sistematicamente dati multimodali, tra cui immagini e video a ultrasuoni. L’obiettivo è addestrare MultiModN a prestare attenzione ai dati reali provenienti da regioni con scarse risorse.
"Raccogliamo esattamente il tipo di dati multimodali complessi per cui MultiModN è stato progettato", afferma Noémie Boillat-Blanco, medico associato del Dipartimento di Malattie Infettive del CHUV. "Siamo lieti di vedere un modello che tiene conto della complessità delle risorse che mancano nei nostri ambienti e della sistematica assenza di esami clinici di routine", aggiunge Kristina Keitel dell’Ospedale Universitario di Berna.
L’apprendimento automatico nell’interesse pubblico
Lo sviluppo e la formazione di MultiModN fanno parte della missione dell’EPFL di adattare gli strumenti di apprendimento automatico al mondo reale e al bene comune. Questo avviene poco dopo il lancio di Meditron, il più potente LLM open source al mondo, progettato per facilitare il processo decisionale clinico.
Entrambi gli strumenti sono in linea con la missione del nuovo Centro AI dell’EPFL, che si concentra su come un’AI responsabile ed efficace possa far progredire l’innovazione tecnologica a beneficio di tutti i settori della società.
Mary-Anne Hartley è uno dei relatori dei prossimi Applied Machine Learning Days (AMLD) che si terranno presso lo SwissTech Convention Center dal 23 al 26 marzo 2024. Vinitra Swamy presenterà MultiModN all’evento AMLD Applied eXplainable AI Track. Scoprite gli altri relatori e registratevi .