Brauchen wir wirklich riesige Rechenzentren für KI?

- EN- DE - FR- IT

Ein Team der EPFL hat eine Software entwickelt, die es der KI ermöglicht, eine Aufgabe auszuführen, ohne auf die Cloud-Dienste von Dritten zurückgreifen zu müssen. Das von einem Start-up-Unternehmen weitergegebene System könnte das Geschäftsmodell der Tech-Giganten in Frage stellen.

Der Einsatz von künstlicher Intelligenz bei alltäglichen Aufgaben ist in den letzten drei Jahren explosionsartig angestiegen. KI-Modelle werden zunehmend eingesetzt, um sensible Daten wie Krankenakten, Kundenanfragen oder alle vertraulichen arbeitsbezogenen Dokumente zu verarbeiten.

Jedes Mal, wenn die KI aufgefordert wird, eine Aufgabe zu erledigen, beginnt die Anfrage lokal auf dem Personalcomputer und wird dann in die Cloud gesendet, wo die KI mithilfe der Rechenleistung von Rechenzentren eine Antwort generiert. Ein Prozess, der als Inferenz bezeichnet wird. Die Antwort wird schliesslich an den lokalen Computer der Nutzerin oder des Nutzers zurückgeschickt.

Inferenz erfordert derzeit immense Datenverarbeitungskapazitäten, die in riesigen Rechenzentren gesammelt werden, die auch zum Training von KI-Modellen wie ChatGPT, Gemini oder Claude dienen. Dies führt dazu, dass Inferenzen und Training derzeit fast ausschliesslich von grossen Technologieunternehmen gesteuert werden.

Vereinfachung der verteilten KI

Gauthier Voron, Geovani Rizk und Rachid Guerraoui, Forscher am Labor für verteilte Datenverarbeitung (DCL) der Fakultät für Informatik und Kommunikation an der EPFL, schlagen ein neues Paradigma vor. Sie haben eine Software entwickelt, die es den Nutzerinnen und Nutzern ermöglicht, KI-Modelle herunterzuladen und lokal zu nutzen, ohne die Cloud zu benötigen, um auf Anfragen zu antworten oder Aufgaben zu erledigen.

Diese neue Software mit dem Namen Anyway Systems bündelt und koordiniert die Leistung von Computern, die in einem lokalen Netzwerk verteilt sind, um sie vor Ort zu bündeln. Mithilfe robuster Selbststabilisierungstechniken optimiert sie die Nutzung der zugrunde liegenden lokalen Hardware und widerspricht damit der gängigen Meinung, dass für den Einsatz von KI-Modellen riesige Rechenzentren erforderlich sind.

Die Software kann in nur einer halben Stunde auf einem Netzwerk lokaler Rechner installiert werden, ohne dass irgendwelche Daten das Netzwerk verlassen, wodurch Vertraulichkeit und Souveränität gewährleistet werden. Ein grosses KI-Modell wie GPT-120B, das neueste und grösste Modell von OpenAI, kann innerhalb weniger Minuten auf Anyway systems heruntergeladen und eingesetzt werden. Es werden nicht mehr als vier Maschinen mit jeweils einem einfachen Grafikprozessor (ca. 10.000 Franken) benötigt, anstatt eines Schranks mit zehnmal teureren Spezialservern, die bisher als die einzigen galten, die ein KI-Modell ausführen können.

"Seit Jahren glauben die Leute, dass grosse Sprachmodelle (LLM) und KI-Tools ohne riesige Ressourcen nicht möglich sind und dass Vertraulichkeit, Souveränität und Nachhaltigkeit von Daten nur die Opfer sind. Aber das ist nicht ganz richtig, denn es sind intelligentere und nüchternere Ansätze möglich", sagt Rachid Guerraoui, Professor am DCL.

Datenschutz, Souveränität und Nachhaltigkeit

Seine Daten in die Cloud zu schicken, wirft entscheidende Fragen in Bezug auf Sicherheit und Datenschutz auf, insbesondere wenn diese Daten verwendet werden, um zum Training oder zur Verbesserung von KI-Modellen beizutragen. Darüber hinaus wirft die Abhängigkeit von grossen globalen Cloud-Anbietern für KI-Dienste Fragen der Souveränität auf, da sie die Kontrolle über wichtige nationale Vermögenswerte - Daten, Algorithmen und Infrastruktur - von einer nationalen Einheit auf transnationale Unternehmen überträgt.

Darüber hinaus trägt die immense Rechenleistung, die zur Beantwortung von KI-Anfragen in der Cloud erforderlich ist - Inferenzen sollen 80-90% der KI-bezogenen Rechenleistung ausmachen - zur raschen Vermehrung gigantischer KI-bezogener Rechenzentren bei, die grosse Mengen an Energie und Wasser verbrauchen.

"Anyway Systems ermöglicht es, die Inferenz zu umgehen", freut sich Rachid Guerraoui. Es könnte aber auch dazu beitragen, die für das Training benötigten Ressourcen zu reduzieren. Pilottests haben gezeigt, dass wir, wenn ein Modell heruntergeladen und auf verstreuten lokalen Rechnern statt in einer riesigen Cloud ausgeführt wird, vielleicht etwas an Latenz - also der Zeit, die wir brauchen, um auf eine Anfrage zu reagieren -, aber nicht an Genauigkeit verlieren."

Von der Blockchain zur KI?

"Unsere Software ist einfach, skalierbar und sicher", fährt Rachid Guerraoui fort. Die ersten Varianten des Anyway-Algorithmus wurden vor einigen Jahren vom DCL entwickelt, das sich auf verteiltes Rechnen, Fehlertoleranz, Optimierung und Datenschutz spezialisiert hat. Die ersten Algorithmen des DCL boten Lösungen für andere technologische Herausforderungen wie Blockchain und Kryptowährungen. Vor drei Jahren kamen Rachid Guerraoui und seine Kollegen auf die Idee, Techniken zur Selbststabilisierung auf die KI anzuwenden, und fanden eine nahezu perfekte Lösung.

"Als Labor sind wir vielleicht die einzigen, die sowohl aus theoretischer als auch aus praktischer Sicht an robustem verteilten Rechnen und maschinellem Lernen arbeiten. Wir haben uns darauf konzentriert, selbststabilisierende Techniken für die KI zu nutzen. Und sie haben funktioniert. Durch weitere Optimierungen haben sie sogar noch besser funktioniert! Das Ergebnis ist fast zu schön, um wahr zu sein", sagt Rachid Guerraoui.

Morgen: Ihre eigene KI zu Hause

Das Startup Anyway Systems wurde kürzlich als einer der ersten sechs Empfänger des Startup Launchpad AI Track ausgewählt, der von der UBS, dem ersten Schweizer Förderprogramm für KI, unterstützt wird. Diese Projekte wurden aus über 50 Vorschlägen ausgewählt und erhalten eine massgeschneiderte Finanzierung und Unterstützung, um ihren Weg vom Prototypen zur Marktreife zu beschleunigen.

Die Software hat mittlerweile die Prototypenphase hinter sich gelassen und wird derzeit in Unternehmen und Behörden in der Schweiz, darunter auch an der EPFL, getestet. Die ersten Nutzer und Nutzerinnen evaluieren derzeit mögliche Kompromisse in Bezug auf Geschwindigkeit, Genauigkeit und Qualität.

"Anyway Systems stellt eine interessante und attraktive Technologie dar, die die Nutzung von Ressourcen optimiert und gleichzeitig die Sicherheit und Souveränität der Daten gewährleistet. Sie könnte das Spiel der KI verändern", sagt David Atienza, Associate Vice President für Zentren und Plattformen der EPFL. Ihr nachhaltiger Ansatz passt perfekt zu den Anforderungen der fortschrittlichen IT-Plattformen der EPFL und wird eine wichtige Rolle bei der Ausrichtung der künftigen KI-Entwicklung an der EPFL spielen, die durch den neuen Einsatz von LLM-Modellen wie Apertus auf einen geringeren Ressourcenverbrauch abzielt."

Bisher funktioniert das System nicht auf einem einfachen Desktop-Computer oder einem Laptop zu Hause, aber die Geschichte der Informatik zeigt, dass die Optimierung oft schnell erfolgt. "Ein Telefon enthält heute astronomische Mengen an Informationen, die vor ein paar Jahren noch unvorstellbar waren, und man kann alles damit machen. Es kann die 100 besten Schachchampions gleichzeitig schlagen, während der Computer, der Kasparow herausforderte, kolossal war. Die Geschichte zeigt, dass die Dinge so laufen: Eines Tages wird die KI lokal arbeiten können. Wir würden die KI unserer Wahl herunterladen, sie an unsere Bedürfnisse anpassen, und wir, nicht die grossen Technologieunternehmen, werden das Spiel bestimmen", schliesst Rachid Guerraoui.

Was ist der Unterschied zwischen Anyway Systems und Google AI Edge?

Google AI Edge ist für die Verwendung auf Mobiltelefonen für sehr spezifische, kleine Modelle gedacht, die von Google erstellt werden, wobei jeder Nutzer ein Modell ausführt, das durch die Kapazität des Telefons begrenzt ist. Es gibt kein verteiltes Rechnen, das den Einsatz derselben leistungsstarken und grossen KI-Modelle ermöglicht, die von vielen Nutzerinnen und Nutzern einer Organisation auf skalierbare und fehlertolerante Weise geteilt werden. Anyway System kann Hunderte von Milliarden Parameter mit nur wenigen Grafikprozessoren verwalten.

Was ist der Unterschied zwischen Anyway Systems und anderen Lösungen, die es Nutzern ermöglichen, lokale LLMs wie Llama oder msty.ai auszuführen?

Die meisten dieser Ansätze ermöglichen es, ein Modell auf einem einzigen Rechner einzusetzen, was eine einzige Fehlerquelle darstellt. Um die leistungsstärksten Modelle einzusetzen, müssen Sie in sehr teure Maschinen investieren, die im Wesentlichen denen in einem Rechenzentrum entsprechen. Wenn Sie also über einen einzigen Standardrechner verfügen, sind die genannten Lösungen nützlich, um kleinere Modelle einzusetzen. Wenn Sie mehrere Standardmaschinen haben, können Sie diese nicht effektiv mit den genannten Lösungen kombinieren, um ein grosses Modell einzusetzen, und selbst wenn Sie es könnten, würde dies ein Team erfordern, das das System verwaltet und pflegt. Das Anyway-System tut dies auf transparente, robuste und automatische Weise. Die Tatsache, dass ein Rechner ausfällt, das Netzwerk verlässt oder ihm beitritt, ist in Anyway-Systemen transparent, abgesehen von einer kleinen Veränderung der Latenz (der Zeit, die auf eine Anfrage geantwortet wird).

KI-Modelle werden ständig verbessert und weiterentwickelt, wie wirken sich diese Verbesserungen lokal aus?

Da das Anyway-System die Möglichkeit bietet, jedes Open-Source-KI-Modell lokal einzusetzen, ist es sicher und akzeptabel, es mit lokalen und sensiblen Daten zu füttern und dem Benutzer die Kontrolle zurückzugeben.