Heute hat fast jeder von KI gehört und Millionen von Menschen auf der ganzen Welt nutzen sie bereits oder kommen mit ihr in Berührung - vom Schreiben unserer E-Mails per ChatGPT bis hin zur Unterstützung bei medizinischen Diagnosen.
Im Grunde verwendet die KI Algorithmen, d. h. mathematisch strenge Anweisungssätze, die einem Computer sagen, wie er verschiedene fortgeschrittene Funktionen ausführen oder Fakten in nützliche Informationen umwandeln soll. Große Sprachmodelle (Large Language Models, LLM), die die immer leistungsfähigere KI antreiben, sind besondere Arten von Algorithmen, die aus großen und meist zentralisierten Datensätzen lernen.
Doch die Zentralisierung dieser riesigen Datensätze führt zu Problemen in Bezug auf Sicherheit, Datenschutz und Dateneigentum. Die Redewendung "Daten sind das neue Öl" bedeutet, dass sie zu einer wichtigen Ressource geworden sind, die Innovation und Wachstum in der heutigen digitalen Wirtschaft vorantreibt.
Um diesen Problemen entgegenzuwirken, ist ein Ansatz namens föderiertes Lernen dabei, die KI zu revolutionieren. Im Gegensatz zum Training von KI-Modellen auf großen, zentralisierten Datensätzen ermöglicht das föderierte Lernen diesen Modellen, über ein Netzwerk dezentraler Geräte (oder Server) zu lernen, wobei die Rohdaten an ihrer Quelle bleiben.
Unzuverlässige Daten
"Die heutige KI, die durch föderiertes Lernen trainiert wird, sammelt Daten aus der ganzen Welt, die aus dem Internet, anderen großen Datenbanken, Krankenhäusern, intelligenten Geräten usw. stammen. Diese Systeme sind sehr effizient, aber gleichzeitig gibt es ein Paradoxon. Was sie so effizient macht, macht sie auch sehr anfällig für das Lernen aus "schlechten" Daten", erklärt Professor Rachid Guerraoui , Leiter des Distributed Computing Laboratory (DCL) an der Fakultät für Informatik und Kommunikation.Daten können aus vielen Gründen falsch sein. Vielleicht werden sie aufgrund von Unachtsamkeit oder menschlichem Versagen falsch in eine Datenbank eingegeben, die Daten sind anfangs fehlerhaft, Sensoren oder andere Instrumente sind kaputt oder funktionieren nicht richtig, falsche oder gefährliche Daten werden böswillig gespeichert, etc. Manchmal sind die Daten gut, aber die Maschine, die sie beherbergt, ist gehackt oder falsch. In jedem Fall macht es die Systeme weniger zuverlässig und unsicher, wenn diese Daten zum Training der KI verwendet werden.
"All dies wirft eine entscheidende Frage auf", sagt Rachid Guerraoui. "Können wir zuverlässige KI-Systeme bauen, ohne den Datenquellen zu vertrauen?" Nach einem Jahrzehnt theoretischer Arbeit an dieser Herausforderung sagen der Professor und sein Team, dass die Antwort "Ja" lautet. Ein kürzlich erschienenes Buch fasst ihre wichtigsten Ergebnisse zusammen.
Vertrauenswürdige Datensätze
In Zusammenarbeit mit dem nationalen Forschungsinstitut für digitale Wissenschaft und Technologie setzen sie ihre Ideen nun in die Praxis um. Sie haben ByzFL entwickelt, eine Bibliothek, die die Programmiersprache Python verwendet und dazu dient, föderierte Lernmodelle gegen negative Bedrohungen, insbesondere schlechte Daten, zu vergleichen und zu verbessern."Wir glauben, dass die meisten Daten gut sind, aber woher wissen wir, welchen Datensätzen wir nicht trauen können?", fragt Rachid Guerraoui. "Unsere ByzFL-Bibliothek testet, ob ein System robust gegen im Voraus unbekannte Angriffe ist, und macht das System dann robuster. Genauer gesagt stellen wir den Benutzerinnen und Benutzern Software zur Verfügung, mit der sie schlechte Daten zu Testzwecken emulieren können, sowie Sicherheitsfilter, um die Robustheit zu gewährleisten. Schlechte Daten werden oft auf subtile Weise verteilt, so dass sie nicht sofort auffallen".
ByzFL isoliert und lokalisiert gute Daten nicht von schlechten, sondern verwendet robuste Aggregationsschemata (z. B. Median), um extreme Eingaben zu ignorieren. Wenn beispielsweise drei Sensoren eine Temperatur von 6, 7 und 9 Grad messen und ein weiterer Sensor -20 registriert, ruiniert dies eine ganze Berechnung. Die ByzFL-Software schließt Extreme aus, sodass die Auswirkungen schlechter Eingaben begrenzt sind, während die Informationen aggregiert werden.
Sicherstellen, dass die KI der nächsten Generation reibungslos funktioniert.
Künstliche Intelligenz dürfte in naher Zukunft alle Aspekte unseres Lebens betreffen. Laut Rachid Guerraoui nutzen die meisten Unternehmen heute sehr primitive Formen der KI, z. B. Streaming-Plattformen, die Filme empfehlen, oder KI-Assistenten, die beim Schreiben von Texten helfen. Wenn jemand den Film, der empfohlen wird, nicht mag oder eine E-Mail nicht perfekt ist, ist das nicht weiter schlimm.In Zukunft ist eine sichere KI für jede wichtige Anwendung, wie z. B. die Diagnose von Krebs, das Fahren eines Fahrzeugs oder die Steuerung eines Flugzeugs, von entscheidender Bedeutung. "An dem Tag, an dem wir wirklich generative KI in Krankenhäuser, Autos oder Verkehrsinfrastrukturen bringen, werden wir meiner Meinung nach sehen, dass die Sicherheit aufgrund schlechter Daten problematisch ist", sagt Rachid Guerraoui. "Die größte Herausforderung besteht derzeit darin, von dem, was ich als Tierzirkus bezeichne, in die reale Welt mit etwas zu wechseln, dem wir vertrauen können. Bei kritischen Anwendungen sind wir noch weit von dem Punkt entfernt, an dem wir aufhören können, uns um die Sicherheit zu sorgen. Das Ziel von ByzFL ist es, dabei zu helfen, diese Kluft zu überbrücken".
Eine Rolle für die Schweiz
Der Professor befürchtet, dass es erst schwerer Unfälle bedarf, damit die Öffentlichkeit und die politischen Entscheidungsträger verstehen, dass die bislang geschaffene KI nicht für die Medizin, den Verkehr oder andere wichtige Zwecke eingesetzt werden sollte und dass die Entwicklung einer sicheren und robusten KI der nächsten Generation von entscheidender Bedeutung ist."Ich denke, dass die Schweiz hier eine Rolle spielen kann, weil wir eine Tradition der Seriosität haben. Wir bauen Dinge, die funktionieren, wir können die Schweizer Qualitätsgarantie nutzen, um ein Zertifizierungssystem einzurichten, das diese Art von Software verwendet, um zu zeigen, dass KI wirklich sicher ist, ohne einzelnen Komponenten zu vertrauen", schloss er.
ByzFL wurde von John Stephen, Geovani Rizk , Marc Gonzalez Vidal , Rafael Pinot , Rachid Guerraoui ( alle von der EPFL) und François Taiani ( von INRIA ) entworfen und entwickelt.
Mehdi El Mhamdi, Julian Steiner, Peva Blanchard, Nirupam Gupta, Rafael Pinot, Youssef Allouah, Abdellah El Mrini, John Stephan, Sadegh Farhadkhani, Geovani Rizk, Arsany Guiguis, Georgios Damaskinos, Sebastien Rouault, Richeek Patra, Mahsa Taziki, Hoang Le Nguyen und Alexandre Maurer sind allesamt Studenten und Studentinnen sowie Postdoktoranden und Postdoktorandinnen, die mit Professor Guerraoui zusammengearbeitet haben, um die Herausforderung von KI-Systemen zu bewältigen.Sichere KI ohne verlässliche Daten.


