Ein Open-Source-Trainingsrahmen zur Optimierung multimodaler KI

- EN- DE - FR- IT
Orangen, gesehen durch das Prisma mehrerer Modalitäten, wobei jeder Teil eine an
Orangen, gesehen durch das Prisma mehrerer Modalitäten, wobei jeder Teil eine andere Art der Wahrnehmung und des Verständnisses dieser Szene zeigt - 2025 EPFL - CC-BY-SA 4.0

Ein Team der EPFL hat 4M entwickelt, ein Trainingsgerüst der nächsten Generation für die KI. Es ist frei zugänglich und ermöglicht die Entwicklung vielseitiger und skalierbarer multimodaler Stiftungsmodelle, die weit über die Sprache hinausgehen.

Große Sprachmodelle (LLM) wie ChatGPT von OpenAI haben die Art und Weise, wie viele von uns bestimmte alltägliche Aufgaben erledigen, verändert. Diese auf generativer künstlicher Intelligenz basierenden Konversationsroboter werden mit einer Sprache trainiert - Hunderte Terabyte Text, der aus dem Internet "kopiert" wurde, und mit Milliarden von Parametern.

In Zukunft werden die "Motoren", die die generative künstliche Intelligenz antreiben, multimodale Modelle sein, die nicht nur auf Text trainiert sind, sondern auch verschiedene andere Arten von Informationen verarbeiten können, darunter Bilder, Videos, Töne und Elemente aus anderen Bereichen wie biologische oder atmosphärische Daten.

Bis vor kurzem war das Training eines einzelnen Modells zur Verarbeitung eines großen Satzes von Modalitäten - den Inputs - und Aufgaben - den Outputs - mit großen Schwierigkeiten verbunden. Beispielsweise hatte das Training häufig zur Folge, dass die Leistung im Vergleich zu Single-Task-Modellen abnahm, und erforderte in der Regel sorgfältige Strategien, um Qualitätsverluste zu verringern und die Genauigkeit zu maximieren. Außerdem war das Training eines Netzwerks auf Modalitäten wie Text, Bilder oder Videos, die stark variieren, mit zusätzlichen Schwierigkeiten verbunden, und wesentliche Informationen zu bestimmten Modalitäten wurden vom Modell oft fälschlicherweise vernachlässigt.

Eine multimodale Modellierung

Im Rahmen eines mehrjährigen Projekts, das mit Unterstützung von Apple in Kalifornien durchgeführt wurde, entwickelte ein Team des Labors für visuelle Intelligenz und Lernen (VILAB) der Fakultät für Informatik und Kommunikation (IC) der EPFL 4M, für massiv multimodale maskierte Modellierung, eines der fortschrittlichsten einzigartigen neuronalen Netze der Welt, das eine breite Palette von Aufgaben und Modalitäten verarbeiten kann.

Die Forscherinnen und Forscher beschrieben die Fortschritte von 4M im Vergleich zu den Fähigkeiten bestehender Modelle in einem, das im Dezember auf der NeurIPS 2024, der jährlichen Konferenz über neuronale Informationsverarbeitungssysteme, vorgestellt wurde (weitere technische Informationen finden Sie am Ende des Artikels).

"Dank 4M verfügen wir nun über ein reichhaltiges Modell, das mehr als nur Sprache interpretieren kann. Warum ist das wichtig? Einer der häufigsten Kritikpunkte an LLMs ist, dass ihr Wissen nicht fundiert ist, weil die Trainingsdaten auf Sprache beschränkt sind", erklärt Assistenzprofessor Amir Zamir, Leiter von VILAB.

"Wenn wir zur multimodalen Modellierung übergehen, müssen wir uns nicht auf Sprache beschränken. Wir bringen andere Modalitäten ein, darunter auch Sensoren. Beispielsweise können wir über eine Orange kommunizieren, indem wir das Wort "Orange" verwenden, wie in Sprachmodellen, aber auch über eine Sammlung von Pixeln, die angeben, wie die Orange aussieht, oder über den Tastsinn, der das Gefühl erfasst, eine Orange zu berühren. Wenn man verschiedene Modalitäten zusammenfügt, erhält man eine vollständigere Verkapselung der physischen Realität, die wir zu modellieren versuchen", fährt er fort.

Auf dem Weg zu einer generischen Open-Source-Vorlage für eine breite Nutzung

Trotz dieser beeindruckenden Fortschritte sagt Amir Zamir, dass die Entwicklung von 4M einige merkwürdige Herausforderungen mit sich brachte, darunter die Tatsache, dass das Modell keine wirklich einheitliche Darstellung zwischen den Modalitäten entwickelt, und er hat seine eigene Theorie, warum dies so ist.

"Wir glauben, dass die Modelle insgeheim unter der Motorhaube schummeln und einen kleinen Satz unabhängiger Modelle erstellen. Ein Satz von Parametern löst ein Problem, ein anderer Satz von Parametern löst ein anderes Problem, und gemeinsam scheinen sie das Gesamtproblem zu lösen. Aber sie vereinen ihr Wissen nicht wirklich auf eine Weise, die eine kompakte gemeinsame Darstellung der Umwelt ermöglicht, die ein gutes Portal zur Welt darstellen würde".

Das VILAB-Team arbeitet weiter an der Strukturierung und Vereinheitlichung von 4M, um eine generische Open-Source-Architektur zu entwickeln, die es Expertinnen und Experten aus anderen Bereichen ermöglicht, sie an ihre spezifischen Bedürfnisse anzupassen, wie z. B. Klimamodellierung oder biomedizinische Forschung. Sie arbeitet auch an anderen wichtigen Aspekten, wie der Erhöhung der Skalierbarkeit und Methoden zur Spezialisierung von Modellen auf Einsatzkontexte.

"Der Vorteil von Open Access ist, dass die Leute das Modell für sich selbst mit ihren eigenen Daten und Spezifikationen anpassen können. 4M kommt zur richtigen Zeit und wir sind besonders begeistert, dass andere Bereiche diese Modellierungslinie für ihre spezifischen Anwendungsfälle übernehmen. Wir freuen uns darauf, zu sehen, wohin uns das führen wird. Aber es gibt noch viele Herausforderungen und es bleibt noch viel zu tun", meinen Oguzhan Fatih Kar und Roman Bachmann, Doktorandenassistenten bei VILAB und Mitautoren des Artikels.

Die Erfahrungen von 4M und die faszinierenden Probleme, an denen das Team weiterhin arbeitet, werfen laut Amir Zamir interessante Fragen über die zukünftige Entwicklung von Stiftungsmodellen auf. "Als Menschen haben wir fünf Hauptsinne. Außerdem lernen wir effizient Sprache, was dem Wissen, das bereits in diesen anderen Sinnen verwurzelt war, Merkmale und Struktur hinzufügt. Bei der heutigen KI ist das Gegenteil der Fall. Wir haben Sprachmodelle ohne sensorischen Zugang zur Welt, die jedoch mithilfe von riesigen Daten und Computerressourcen trainiert werden. Unser Ziel ist es, die Rolle der Multimodalität zu untersuchen und ein fundiertes universelles Modell zu entwickeln, das auch im Downstream-Bereich effektiv eingesetzt werden kann."

Das 4M-Projekt erweitert die Fähigkeiten der bestehenden Modelle in mehreren Schlüsselbereichen:

  • Modalitäten: 4M bietet neue Fähigkeiten, wie die Vorhersage von Dutzenden von Modalitäten aus Dutzenden von anderen, intermodales Abrufen, kontrollierbare Generierung und eine solide Sofortleistung. Es hat überzeugend gezeigt, dass ein einziges Modell Dutzende verschiedener Aufgaben ohne Leistungseinbußen im Vergleich zu dedizierten Single-Task-Modellen und dem Stand der Technik lösen kann.
  • Vielfalt: 4M unterstützt verschiedene Modalitäten und stärker strukturierte Daten wie menschliche Besetzungen, SAM-Instanzen und Metadaten für eine kontrollierbare Generierung.
  • Tokenisierung: 4M untersucht die diskrete Tokenisierung verschiedener Modalitäten, wie z. B. die Einbettung von globalen Bildern, menschlichen Posen und Semantik.
  • Maßstab: Das Öffentliche Modell wurde auf 3 Milliarden Parameter erweitert und mit über 500 Milliarden Token trainiert.
  • Co-Training: 4M demonstriert das gleichzeitige Co-Training von Vision und Sprachmodellierung.