Der Algorithmus, der tiefe physische neuronale Netze trainiert

- EN- DE - FR- IT
Der Algorithmus, der tiefe physische neuronale Netze trainiert

Wissenschaftler der EPFL haben einen Algorithmus entwickelt, der ein analoges neuronales Netz mit der gleichen Genauigkeit wie ein digitales Netz trainieren kann. Dies ebnet den Weg für die Entwicklung von weniger energieintensiver Hardware, die dem Deep Learning gewidmet ist.

Aufgrund ihrer Fähigkeit, große Datenmengen durch algorithmisches "Lernen" statt durch herkömmliche Programmierung zu verarbeiten, erwecken tiefe neuronale Netze wie Chat-GPT oft den Eindruck, ein unbegrenztes Potenzial zu besitzen. Doch die zunehmende Reichweite und Wirkung dieser Systeme ging mit einer Zunahme ihrer Größe, Komplexität und ihres Energieverbrauchs einher, wobei letzterer hoch genug ist, um Bedenken hinsichtlich ihres Beitrags zu den weltweiten Kohlenstoffemissionen zu wecken.

Während man beim Übergang von der analogen zur digitalen Welt oft an den technologischen Fortschritt denkt, suchen Fachleute nun nach Antworten auf dieses Problem in physikalischen Alternativen zu digitalen tiefen neuronalen Netzen. Romain Fleury vom Laboratoire d’ingénierie des ondes (LWE) der Fakultät für Ingenieurwissenschaften und -techniken der EPFL ist einer dieser Wissenschaftler. In einem in der Zeitschrift Science veröffentlichten Artikel beschreiben Romain Fleury und seine Kollegen einen Algorithmus für das Training physikalischer Systeme, der im Vergleich zu anderen Methoden eine höhere Geschwindigkeit und Robustheit sowie einen geringeren Energieverbrauch aufweist.

"Wir haben unseren Trainingsalgorithmus erfolgreich an drei physikalischen Systemen getestet, die statt Elektronen Schallwellen, Lichtwellen und Mikrowellen zum Transport von Informationen verwenden. Aber unser vielseitiger Ansatz kann verwendet werden, um jedes physikalische System zu trainieren", sagt Ali Momeni, Hauptautor der Studie und Forscher am LWE.

Ein "biologisch plausiblerer" Ansatz.

Beim Training neuronaler Netze lernen die Systeme, optimale Parameterwerte für eine Aufgabe wie die Bild- oder Spracherkennung zu generieren. Das Training neuronaler Netze besteht normalerweise aus zwei Schritten: einem Vorwärtsdurchlauf, bei dem Daten durch das Netz gesendet werden und eine Fehlerfunktion auf der Grundlage der Ausgabe berechnet wird, und einem Rückwärtsdurchlauf (auch Backpropagation genannt), bei dem ein Gradient der Fehlerfunktion in Bezug auf alle Parameter des Netzes berechnet wird.

Nach mehreren Iterationen aktualisiert sich das System auf der Grundlage dieser beiden Berechnungen, um immer genauere Werte zu liefern. Was ist das Problem? Backpropagation ist nicht nur sehr energieintensiv, sondern auch ungeeignet für physikalische Systeme. Das ist ineffizient und birgt das Risiko, dass die Realität nicht mit der Simulation übereinstimmt.

Die Idee der Wissenschaftler war es, den Backpropagation-Schritt durch einen zweiten Vorwärtsschritt im physikalischen System zu ersetzen, um jede Schicht des Netzwerks lokal zu aktualisieren. Neben der Senkung des Energieverbrauchs und dem Wegfall der Notwendigkeit eines digitalen Zwillings spiegelt diese Methode auch das menschliche Lernen besser wider.

"Die Struktur der neuronalen Netze orientiert sich am Gehirn, aber es ist unwahrscheinlich, dass das Gehirn durch Backpropagation lernt", erklärt Ali Momeni. Die Idee dahinter ist, dass wir, wenn wir jede physikalische Schicht lokal trainieren, unser reales physikalisches System nutzen können, anstatt zunächst ein digitales Modell davon zu erstellen. Wir haben also einen biologisch plausibleren Ansatz entwickelt".

Die Wissenschaftler der EPFL haben in Zusammenarbeit mit Philipp del Hougne vom IETR des CNRS und Babak Rahmani von Microsoft Research ihren physikalischen lokalen Lernalgorithmus (PhyLL) verwendet, um experimentelle akustische und Mikrowellensysteme sowie ein modelliertes optisches System zu trainieren, um Daten wie Vokalklänge und Bilder zu klassifizieren. Neben einer vergleichbaren Genauigkeit wie beim Backpropagation-Training erwies sich die Methode im Vergleich zu aktuellen Methoden als zuverlässig und anpassungsfähig, selbst in Systemen, die unvorhersehbaren externen Störungen ausgesetzt sind.

Eine analoge Zukunft?

Obwohl der LWE-Ansatz das erste rückwärtspropagationsfreie Training tiefer physischer neuronaler Netze ist, sind noch einige numerische Aktualisierungen der Parameter erforderlich. "Es ist ein hybrider Trainingsansatz, aber unser Ziel ist es, die numerische Berechnung so weit wie möglich zu reduzieren", sagt Ali Momeni.

Die Wissenschaftler hoffen nun, ihren Algorithmus auf ein optisches System in kleinem Maßstab anzuwenden, um die Skalierbarkeit des Netzwerks zu erhöhen.

"In unseren Experimenten haben wir neuronale Netze mit bis zu 10 Schichten verwendet, aber würde das auch mit 100 Schichten und Milliarden von Parametern funktionieren? Das wird der nächste Schritt sein. Dazu müssen wir die technischen Grenzen der physikalischen Systeme überwinden", so der Forscher abschließend.

Referenzen

Ali Momeni et al, Backpropagation-free training of deep physical neural networks. Science 0, eadi8474 adi8474