Innerhalb eines Satzes gelingt es großen Sprachmodellen wie GPT-4 besser, die kommenden Wörter vorherzusagen als die vorhergehenden Wörter. Dieser "Zeitpfeil"-Effekt könnte unser Verständnis der Struktur der natürlichen Sprache und die Art und Weise, wie diese Modelle sie verstehen, neu definieren.
Große Sprachmodelle (Large Language Models, LLM) wie GPT-4 sind für Aufgaben wie Texterstellung, Verschlüsselung, Betrieb von Chatbots und Übersetzung unverzichtbar geworden. Sie sagen das nächste Wort in einem Satz auf der Grundlage der vorhergehenden Wörter voraus - eine einfache, aber effektive Idee, die hinter den meisten ihrer Funktionen steht. Was aber, wenn man diese Modelle dazu auffordert, Wörter in einem Text rückwärts vorherzusagen, d. h. zurückzugehen und das vorherige Wort aus den folgenden Wörtern zu bestimmen?
Diese Frage veranlasste Clément Hongler, Inhaber des Lehrstuhls für statistische Feldtheorie an der EPFL, und Jérémie Wenger von Goldsmiths (London) zu untersuchen, ob LLMs eine Geschichte rückwärts, d.h. vom Ende her, erstellen können. In Zusammenarbeit mit Vassilis Papadopoulos, einem Forscher für künstliche Intelligenz an der EPFL, machten sie eine erstaunliche Entdeckung: LLMs sind systematisch weniger genau, wenn sie rückwärts voraussagen.
Eine grundlegende Asymmetrie
Die drei Forscher testeten LLMs mit unterschiedlichen Architekturen und Größen. Bei allen Modellen trat ein "Zeitpfeil"-Effekt auf, der auf eine grundlegende Asymmetrie in der Art und Weise, wie LLMs Texte verarbeiten, hindeutet.
Clément Hongler erklärt: "Diese Entdeckung zeigt, dass LLMs zwar recht gut darin sind, das nächste und das vorherige Wort in einem Text vorherzusagen, dass sie aber rückwärts immer noch etwas weniger gut sind. Ihre Leistung bei der Vorhersage des vorherigen Wortes ist immer um einige Prozent niedriger. Dieses Phänomen ist universell: Es tritt in allen Sprachen auf und kann mit jedem großen Sprachmodell beobachtet werden."
Diese Arbeit ist ein Echo der Arbeit von Claude Shannon, dem Vater der Informationstheorie, die in seinem. Claude Shannon wollte herausfinden, ob es genauso einfach ist, den nächsten Buchstaben einer Sequenz vorherzusagen wie den vorherigen. Er fand heraus, dass, obwohl beide Aufgaben theoretisch gleich schwierig sind, Menschen die Rückwärtsvorhersage als etwas schwieriger empfanden.
Intelligente Agenten
"Theoretisch sollte es keinen Unterschied zwischen vorher und nachher geben, aber die LLM scheinen in gewisser Weise sensibel für die Zeitrichtung zu sein, in der sie den Text verarbeiten", erklärt Clément Hongler. Interessanterweise hängt dieses Phänomen mit einer tiefgreifenden Eigenschaft der Sprachstruktur zusammen, die erst mit dem Aufkommen der großen Sprachmodelle in den letzten fünf Jahren entdeckt wurde".
Die drei Forscher bringen diese Eigenschaft mit dem Vorhandensein von intelligenten Agenten, die Informationen verarbeiten, in Verbindung, was bedeutet, dass sie als Werkzeug zum Aufspüren von Intelligenz oder Leben dienen und bei der Entwicklung besserer LLMs helfen könnte. Schließlich könnte sie neue Wege aufzeigen, um ein seit langem bestehendes Problem zu verstehen, nämlich den Zeitablauf als emergentes Phänomen in der Physik.
Ihre Arbeit wurde auf der renommierten ICML-Konferenz vorgestellt und ist auch auf arXiv verfügbar.
Vom Theater zur Mathematik
Die Studie hat eine faszinierende Vorgeschichte, die Clément Hongler erzählt: "Im Jahr 2020 arbeiteten Jérémie [Wenger] und ich mit der Theaterschule La Manufacture an der Entwicklung eines Konversationsroboters, der mit Schauspielerinnen und Schauspielern improvisieren sollte. Bei der Improvisation will man oft die Geschichte weiterführen, obwohl man weiß, wie das Ende aussehen sollte."
"Um Geschichten zu erschaffen, die auf eine bestimmte Art und Weise enden, hatten wir die Idee, den Chatbot zu trainieren, "rückwärts" zu sprechen und ihm so zu ermöglichen, eine Geschichte von ihrem Ende her zu erschaffen. Wenn das Ende zum Beispiel "und sie lebten glücklich und hatten viele Kinder" lautet, könnte das Modell Ihnen erzählen, wie es dazu gekommen ist. Wir haben also Vorlagen zu diesem Zweck trainiert und festgestellt, dass sie rückwärts etwas weniger effektiv waren".
"Vassilis [Papadopoulos] und ich haben später herausgefunden, dass es sich um ein tiefgreifendes Merkmal der Sprache und ein neues, allgemeines Phänomen handelt, das stark mit Zeitablauf, Intelligenz und dem Konzept der Kausalität verbunden ist. Ziemlich cool für ein Theaterprojekt!
Blavatnik Family Foundation
Latsis-Stiftung
NCCR SwissMAP
EPFL
Referenzen
Vassilis Papadopoulos, Jérémie Wenger, Clément Hongler. Arrows of Time for Large Language Models. arXiv: 2401.17505v4