Die Nuancen des menschlichen Verhaltens zeigen sich in der Küche

- EN- DE - FR- IT
 (Image: Pixabay CC0)
(Image: Pixabay CC0)

Indem er eine Küche als Bewegungslabor ausstattet, schlägt der EPFL-Professor Alexander Mathis eine neue Art und Weise vor, die menschliche Mobilität in ihrer ganzen Komplexität zu beobachten, zu quantifizieren und zu modellieren.

Um die menschliche Bewegung im Detail zu erforschen, gibt es keinen besseren Ort als die Küche. Das ist jedenfalls die Wette von Alexander Mathis, Assistenzprofessor an den Instituten Brain Mind und Neuro-X der EPFL. Zusammen mit einem multidisziplinären Team aus der EPFL, der ETH Zürich und dem Microsoft Joint Swiss Research Center hat der Spezialist für Computational Neuroscience den EPFL-Smart-Kitchen-30-Datensatz entwickelt. Dieser weltweit einzigartige Datensatz bietet eine äusserst umfassende Aufzeichnung der Gesten, die bei der Zubereitung von Mahlzeiten ausgeführt werden, und wird aus mehreren Blickwinkeln erfasst. Die Arbeit wird Anfang Dezember auf der NeurIPS-Konferenz in San Diego vorgestellt. Sie ebnet den Weg für eine bessere Überwachung der Auswirkungen der Neurorehabilitation im Alltag sowie für die Entwicklung wirksamerer therapeutischer Strategien zur Rehabilitation und Unterstützung der motorischen Funktionen. Es baut auf den Forschungsarbeiten von Friedhelm Hummel und Solaiman Shokur an der EPFL auf.

Das Projekt zielt darauf ab, die Art und Weise, wie Menschen alltägliche Bewegungen in möglichst lebensnahen Situationen ausführen, genau, aber nicht aufdringlich zu verfolgen. Ziel ist es, die motorischen und kognitiven Komponenten unserer Gesten zu modellieren, um besser zu verstehen, wie Bewegung, Koordination und Handlungsplanung organisiert sind. Die potenziellen Anwendungen sind vielfältig und reichen von grundlegenden und translationalen Neurowissenschaften bis hin zu maschinellem Lernen, auch im medizinischen Bereich.

Warum gerade die Küche? "Zunächst einmal ist da die Frage der Privatsphäre", erklärt Alexander Mathis. Von allen Räumen im Haus ist die Küche der unproblematischste." Der andere Grund ist eher wissenschaftlicher Natur. "In der Küche führen Sie eine unendliche Vielzahl von Bewegungen aus: Sie gehen, stellen sich auf die Zehenspitzen, öffnen Türen, hantieren mit Messern, Töpfen und Verpackungen. Es geht um Hand-Augen-Koordination, um Planung - damit alle Zutaten zur richtigen Zeit bereitstehen - und sogar um den Ausdruck Ihres persönlichen Stils. Es ist wirklich der ganze Körper und das ganze Gehirn, die mobilisiert werden"

Um von dieser Intuition zu den Daten zu gelangen, hat das Team auf dem Biotech-Campus eine echte instrumentierte Küche gebaut. die EPFL-Smart-Kitchen-30 ist ein "lange geplantes Projekt", wie Alexander Mathis scherzt, und basiert auf einer einzigartigen Erfassungsplattform: Neun fest installierte RGB-D-Kameras sind im Raum verteilt, sodass die Hände der Probanden ständig aus verschiedenen Winkeln zu sehen sind; ein HoloLens-2-Headset filmt aus der subjektiven Perspektive, wobei auch der Blickverlauf verfolgt werden kann; Trägheitsmesseinheiten erfassen die Bewegungen des Körpers und der Hände. selbst einige Elemente der Küche sind mit Instrumenten ausgestattet", erklärt der Forscher. Wir haben zum Beispiel einen Beschleunigungsmesser an der Kühlschranktür angebracht. Damit konnten wir messen, wie schnell man sie öffnet, wie flüssig oder zögerlich die Bewegungen sind."

In der Küche führen Sie eine Vielzahl von Bewegungen aus: Sie gehen, stellen sich auf die Zehenspitzen, öffnen Türen, hantieren mit Messern, Töpfen und Verpackungen.... Der ganze Körper und das Gehirn werden mobilisiert.

Alexander Mathis, Assistenzprofessor an den Instituten Brain Mind und Neuro-X der EPFL


Omelette, Ratatouille, Pad Thai

Insgesamt summiert sich der Datensatz auf fast 30 Stunden Aufnahmezeit. Die 16 Probanden - Männer und Frauen im Alter von 20 bis 46 Jahren - kochten vier verschiedene Rezepte, wobei jede Zubereitung mehrmals wiederholt wurde, um zu sehen, wie sich die Gesten mit zunehmender Übung verändern. Es gab ein Omelett mit Salat, ein Ratatouille und ein Pad Thai. letzteres war eine gute Wahl, da es für einige, vor allem für die älteren Teilnehmerinnen und Teilnehmer, ein neues Gericht war", sagt Alexander Mathis. Es war also gewöhnungsbedürftig" Jedes dieser Gerichte kombiniert einfache Gesten mit zeitlichen Zwängen: Man überwacht den Kochvorgang, während man eine Sosse zubereitet, man plant den nächsten Schritt und passt sich an Unvorhergesehenes an.

Eine der Stärken des Projekts ist die Genauigkeit seiner Anmerkungen. Jede Sitzung wurde von menschlichen Annotatorinnen und Annotatoren analysiert, die die Handlungen der gefilmten Person fortlaufend beschrieben. Es wurden 768 Handlungstypen definiert, von sehr konkreten Handlungen wie "die Aubergine nehmen", "das Messer nehmen", "die Aubergine schneiden" bis hin zu allgemeineren Kategorien wie "die Zutaten vorbereiten" oder "die Arbeitsfläche reinigen". Das Ergebnis sind durchschnittlich mehr als 30 Handlungssegmente pro Minute.

Dieses Material dient als Grundlage für vier grosse Referenzmodelle, mit denen die Fähigkeiten von Modellen der künstlichen Intelligenz getestet werden sollen, darunter Vision-Sprache, multimodale Handlungserkennung, posierungsbasierte Segmentierung und Text-zu-Bewegung-Generierung. Bei Letzterem geht es darum, verbale Anweisungen mit 3D-Bahnen zu verknüpfen. Das Erlernen dieser Verbindung zwischen Sprache und Bewegung ist entscheidend, wenn Assistenzsysteme oder Roboter wirklich verstehen sollen, was von ihnen verlangt wird.

Tests zeigen, dass diese Herausforderung noch lange nicht bewältigt ist. "Bei der Aufgabe, Handlungen zu erkennen, erreichen die besten aktuellen KI-Modelle eine Genauigkeit von etwa 40 %", stellt Alexander Mathis fest. Mit anderen Worten: Sie sind noch weit davon entfernt, eine Kochsession mit der für klinische Anwendungen erforderlichen Zuverlässigkeit automatisch zu analysieren. Der Forscher ist jedoch zuversichtlich: "Ich bin sicher, dass sie in ein oder zwei Jahren viel besser sein werden. Die KI entwickelt sich sehr schnell und diese Art von Referenzen wird ihr helfen, neue Meilensteine zu erreichen."

Den Betroffenen bei ihrer Gesundheit helfen

Hinter diesen Zahlen steht ein sehr konkretes Ziel: Menschen mit gesundheitlichen Beeinträchtigungen soll geholfen werden, ihre volle Mobilität wiederzuerlangen. Friedhelm Hummel, Inhaber des Defitech-Stiftungslehrstuhls für klinische Neuroengineering-Forschung und Mensch-Maschine-Interaktion, ist einer der Projektpartner, der sich auf die Genesung von Menschen nach einem Schlaganfall und auf personalisierte Therapien konzentriert. Im Translational Engineering Laboratory arbeitet der Neuroingenieur Solaiman Shokur an Schnittstellen, die es ermöglichen, nach schweren Verletzungen wieder natürlichere Bewegungen auszuführen.

friedhelm Hummel erklärt: "Nehmen wir eine Person, die sich von einem Schlaganfall erholt. Heute würde man ihn zum Beispiel bitten, seinen Arm zu heben, und ihm für diese Geste eine Punktzahl zuweisen. Wenn man aber beobachtet, wie sie kocht, wird man viel mehr relevante Dinge über ihr tägliches Leben herausfinden. Vermeidet sie bestimmte Bewegungen? Braucht sie viel mehr Zeit für Handlungen, die eigentlich einfach sein sollten? Erreicht sie die Ziele, die sie sich bei der Zubereitung des Essens gesetzt hat?"

Die Idee ist, dieses natürliche Verhalten automatisch mit bestehenden klinischen Scores zu verknüpfen oder sogar neue zu erfinden. Solche Indikatoren könnten eines Tages dazu dienen, den Fortschritt einer Rehabilitation zu Hause zu verfolgen, zum Beispiel anhand einer wöchentlich analysierten Kochstunde.

Abgesehen von Gesundheitsfragen interessiert sich Alexander Mathis auch dafür, was den Unterschied zwischen einer gewöhnlichen Geste und einer Expertengeste ausmacht. "Wie kocht man wie ein Chefkoch, wie spielt man Gitarre wie ein Ausnahmemusiker? Zwischen dem Rehabilitationspatienten und dem Experten gibt es ein ganzes Kontinuum motorischer Kontrolle, das wir gerne beschreiben würden." Eine zweite Studie, die bereits in Vorbereitung ist, wird eine grössere Anzahl von Teilnehmerinnen und Teilnehmern umfassen und sich insbesondere auf das Fachwissen konzentrieren.