Forscherinnen und Forscher der EPFL haben ein neues, modulares Modell für maschinelles Lernen entwickelt, das eine flexible Entscheidungsfindung ermöglicht. Das Modell kann jede Art von Text, Video, Bild, Ton und Zeitreihen eingeben und dann eine beliebige Anzahl oder Kombination von Vorhersagen erzeugen.
Jeder hat schon einmal von großen Sprachmodellen (Large Language Models, LLM) gehört. Das sind groß angelegte Deep-Learning-Modelle, die mit riesigen Textmengen trainiert werden und die Grundlage für Chatbots wie ChatGPT von OpenAI bilden. Multimodale Modelle (MM) der nächsten Generation können aus anderen Eingaben als Text lernen, einschließlich Video, Bilder und Ton.
Die Erstellung von multimodalen Modellen in kleinerem Maßstab bringt große Herausforderungen mit sich, darunter die Zuverlässigkeit gegenüber fehlenden, nicht zufälligen Informationen. Dabei handelt es sich um Informationen, die einem Modell nicht zur Verfügung stehen, was häufig auf eine verzerrte Verfügbarkeit von Ressourcen zurückzuführen ist. Es muss daher unbedingt sichergestellt werden, dass das Modell bei der Erstellung seiner Vorhersagen keine verzerrten Abwesenheitsmuster lernt.
MultiModN umgeht das Problem
Um dieses Problem zu lösen, haben Forscherinnen und Forscher des Labors für maschinelles Lernen in der Bildung (ML4ED) und des Labors für maschinelles Lernen und Optimierung (MLO) der Fakultät für Informatik und Kommunikation der EPFL das genaue Gegenteil eines großen Sprachmodells entwickelt und getestet.
MultiModN wurde von Mary-Anne Hartley, der Leiterin des Laboratory for intelligent Global Health Technologies, das gemeinsam am MLO-Labor und der Yale Medical School angesiedelt ist, und Tanja Käser, der Leiterin des ML4ED-Labors, entwickelt und ist ein einzigartiges modulares multimodales Modell, das kürzlich auf der NeurIPS-Konferenz2023 vorgestellt wurde.
Wie die bisherigen multimodalen Modelle kann auch MultiModN aus Texten, Bildern, Videos und Tönen lernen. Im Gegensatz zu den bisherigen multimodalen Modellen besteht es aus einer Anzahl kleinerer, eigenständiger und eingabespezifischer Module, die je nach verfügbaren Informationen ausgewählt und dann in einer Sequenz aus einer beliebigen Anzahl, Kombination oder Art von Eingaben verknüpft werden können. Anschließend kann er eine beliebige Anzahl oder Kombination von Vorhersagen erzeugen.
"Wir haben MultiModN in zehn realen Aufgaben evaluiert, darunter die Unterstützung medizinischer Diagnosen, die Vorhersage von Schulleistungen und Wettervorhersagen. Aufgrund dieser Erfahrungen glauben wir, dass MultiModN der erste Ansatz für multimodale Modellierung ist, der inhärent interpretierbar und resistent gegen nicht zufällig fehlende Daten (MNAR) ist", erklärt Vinitra Swamy, Doktorandin an den ML4ED- und MLO-Laboratorien und leitende Co-Autorin des Projekts.
Ein erster Anwendungsfall: Medizinische Entscheidungsfindung
Der erste Anwendungsfall von MultiModN wird ein klinisches Entscheidungsunterstützungssystem für medizinisches Personal in ressourcenarmen Umgebungen sein. Im Gesundheitswesen fehlen oft klinische Daten, möglicherweise aufgrund von Ressourcenbeschränkungen (ein Patient oder eine Patientin kann sich den Test nicht leisten) oder Ressourcenreichtum (der Test ist redundant, weil bereits ein höherer Test durchgeführt wurde). MultiModN kann aus diesen realen Daten lernen, ohne ihre Verzerrungen zu übernehmen, und seine Vorhersagen an jede beliebige Anzahl oder Kombination von Eingaben anpassen.
"Absence" ist ein Merkmal von Daten in ressourcenarmen Umgebungen. Wenn Modelle diese Abwesenheitsmuster erlernen, können sie Verzerrungen in ihren Vorhersagen kodieren. Der Bedarf an Flexibilität angesichts unvorhersehbar verfügbarer Ressourcen ist der Ursprung von MultiModN", sagt Mary-Anne Hartley, die auch Ärztin ist.
Vom Labor in die Realität
Die Veröffentlichung ist jedoch nur der erste Schritt zur Umsetzung. Mary-Anne Hartley arbeitet mit Kollegen des Centre hospitalier universitaire vaudois ( CHUV ) und Inselspital, des Universitätsspitals Bern uBern zusammen, um klinische Studien mit Schwerpunkt auf der Diagnose von Lungenentzündung und Tuberkulose in ressourcenarmen Umgebungen durchzuführen und Tausende von Patientinnen und Patienten in Südafrika, Tansania, Namibia und Benin zu rekrutieren.
Die Forschungsteams haben eine umfassende Schulungsinitiative gestartet, um mehr als 100 Ärzten beizubringen, wie sie multimodale Daten, einschließlich Ultraschallbilder und -videos, systematisch sammeln können. Ziel ist es, MultiModN darauf zu trainieren, auf reale Daten aus ressourcenschwachen Regionen zu achten.
"Wir sammeln genau die Art von komplexen multimodalen Daten, für die MultiModN entwickelt wurde", sagt Noémie Boillat-Blanco, assoziierte Ärztin in der Abteilung für Infektionskrankheiten des CHUV. "Wir sind begeistert, ein Modell zu sehen, das die Komplexität der fehlenden Ressourcen in unseren Umgebungen und das systematische Fehlen von klinischen Routineuntersuchungen berücksichtigt", fügt Kristina Keitel vom Universitätsspital Bern hinzu.
Maschinelles Lernen im Dienste des Gemeinwohls
Die Entwicklung und das Training von MultiModN sind Teil der Mission der EPFL, Werkzeuge des maschinellen Lernens an die Realität und für das Öffentliche Interesse anzupassen. Dies geschieht kurz nach der Einführung von Meditron , dem weltweit leistungsfähigsten Open-Source-LLM, das die klinische Entscheidungsfindung erleichtern soll.
Beide Tools orientieren sich an der Mission des neuen KI-Zentrums der EPFL, das sich darauf konzentriert, wie eine verantwortungsvolle und effektive KI die technologische Innovation zum Nutzen aller Bereiche der Gesellschaft vorantreiben kann.
Mary-Anne Hartley ist Referentin bei den nächsten Applied Machine Learning Days (AMLD), die vom 23. bis 26. März 2024 im SwissTech Convention Center stattfinden. Vinitra Swamy wird MultiModN bei der Veranstaltung Applied eXplainable AI Track der AMLD vorstellen. Entdecken Sie die anderen Referentinnen und Referenten und melden Sie sich an .