Zwei künstliche Intelligenzen beginnen einen Dialog

- EN- DE - FR- IT

Ein Team der Universität Genf hat eine KI entwickelt, die eine Aufgabe nur aufgrund von verbalen Anweisungen erlernen kann. Und das Gleiche mit einer "Schwester"-KI zu tun.

 (Image: Pixabay CC0)
(Image: Pixabay CC0)
Führen Sie eine neue Aufgabe aus, die nur auf verbalen oder schriftlichen Anweisungen beruht. Und sie dann so beschreiben, dass eine andere Person sie nachvollziehen kann. Diese doppelte Fähigkeit ist ein Eckpfeiler der menschlichen Kommunikation, der sich der Künstlichen Intelligenz (KI) noch widersetzt. Einem Team der Universität Genf ist es gelungen, ein künstliches neuronales Netz zu modellieren, das diese kognitive Leistung vollbringen kann. Nachdem diese KI eine Reihe grundlegender Aufgaben gelernt und ausgeführt hatte, war sie in der Lage, eine sprachliche Beschreibung dieser Aufgaben an eine "Schwester"-KI weiterzugeben, die diese dann ihrerseits ausführte. Diese vielversprechenden Ergebnisse, insbesondere für den Robotiksektor, sind in Nature Neuroscience zu finden.

Eine neue Aufgabe ohne vorheriges Training und nur auf der Grundlage von mündlichen oder schriftlichen Anweisungen zu erledigen, ist eine Fähigkeit, die dem Menschen eigen ist. Sobald wir eine Aufgabe erlernt haben, sind wir auch in der Lage, sie zu beschreiben, sodass eine andere Person sie nachvollziehen kann. Diese doppelte Fähigkeit unterscheidet uns von anderen Spezies, die zum Erlernen einer solchen Aufgabe viele Versuche mit positiven oder negativen Verstärkungssignalen benötigen, ohne dass sie in der Lage sind, sie ihren Artgenossen zu vermitteln.

Ein Teilbereich der Künstlichen Intelligenz (KI) - die Verarbeitung natürlicher Sprache - versucht, diese menschliche Fähigkeit nachzubilden, indem Maschinen Sprach- oder Textdaten verstehen und darauf reagieren können. Diese Technik beruht auf künstlichen neuronalen Netzwerken, die von unseren biologischen Neuronen und der Art und Weise, wie sie elektrische Signale in unserem Gehirn übertragen, inspiriert sind. Die neuronalen Berechnungen, die die oben beschriebene kognitive Leistung ermöglichen könnten, sind jedoch noch immer nicht vollständig verstanden.

’Derzeit sind KI-gestützte Konversationsagenten in der Lage, sprachliche Informationen zu integrieren, um einen Text oder ein Bild zu produzieren. Aber unseres Wissens sind sie noch nicht in der Lage, eine verbale oder schriftliche Anweisung in eine sensomotorische Handlung umzusetzen, geschweige denn, sie anschließend einer anderen künstlichen Intelligenz zu erklären, damit diese sie nachvollziehen kann’, sagt Alexandre Pouget, ordentlicher Professor an der Abteilung für grundlegende Neurowissenschaften der Medizinischen Fakultät der Universität Genf.

Ein Modellgehirn

Dem Forscher und seinem Team ist es gelungen, ein künstliches neuronales Modell mit dieser doppelten Fähigkeit zu entwickeln, das allerdings vorher trainiert worden war. Wir haben mit einem bereits existierenden künstlichen neuronalen Modell, S-Bert, begonnen, das 300 Millionen Neuronen umfasst und auf Sprachverständnis vortrainiert ist. Wir haben es an ein anderes, einfacheres Netz von einigen tausend Neuronen ’’angeschlossen’’", erklärt Reidar Riveland, Doktorand an der Abteilung für grundlegende Neurowissenschaften der medizinischen Fakultät der Universität Genf und Erstautor der Studie.

Im ersten Schritt des Experiments trainierten die Neurowissenschaftler dieses Netzwerk, um das Wernicke-Areal zu simulieren, den Teil des Gehirns, der es uns ermöglicht, Sprache wahrzunehmen und zu interpretieren. Im zweiten Schritt wurde das Netzwerk darauf trainiert, das Broca-Areal nachzubilden, das unter dem Einfluss des Wernicke-Areals für die Produktion und Artikulation von Wörtern zuständig ist. Der gesamte Prozess wurde auf herkömmlichen Laptops durchgeführt. Anschließend wurden der KI schriftliche Anweisungen in englischer Sprache übermittelt.

Zum Beispiel: auf die Stelle - links oder rechts - zeigen, an der ein Reiz wahrgenommen wird; in die entgegengesetzte Richtung eines Reizes reagieren; oder komplexer: von zwei visuellen Reizen mit einem leichten Kontrastunterschied den helleren zeigen. Die Wissenschaftler bewerteten die Ergebnisse ihres Modells, das die Absicht simuliert, sich zu bewegen oder hier zu zeigen. Nachdem das Netzwerk diese Aufgaben gelernt hatte, war es in der Lage, sie einem zweiten Netzwerk - einer Kopie des ersten - zu beschreiben, damit dieses sie reproduzieren konnte.

Für zukünftige Humanoide

Diese Modellierung eröffnet neue Horizonte, um die Interaktion zwischen Sprache und Verhalten zu verstehen. Sie ist insbesondere für die Robotik vielversprechend, wo die Entwicklung von Technologien, die es ermöglichen, Maschinen miteinander sprechen zu lassen, eine zentrale Herausforderung darstellt. Das Netzwerk, das wir entwickelt haben, ist sehr klein. Nichts spricht nun dagegen, auf dieser Grundlage viel komplexere Netzwerke zu entwickeln, die in humanoide Roboter integriert werden, die nicht nur uns, sondern auch sich selbst verstehen können’, so die beiden Forscher abschließend.