Arbeitet künstliche Intelligenz auf Englisch?

- EN- DE - FR- IT
 (Bild: Pixabay CC0)
(Bild: Pixabay CC0)

Wissenschaftler der EPFL haben gezeigt, dass große Sprachmodelle intern offenbar Englisch verwenden, auch wenn sie in einer anderen Sprache angesprochen werden, was Folgen in Form von sprachlichen und kulturellen Verzerrungen haben könnte.

Große Sprachmodelle (LLM) wie ChatGPT von Open AI und Gemini von Google haben die Welt erobert und überraschen mit ihrer Fähigkeit, Nutzerinnen und Nutzer zu verstehen und ihnen mit einer scheinbar natürlichen Sprache zu antworten.

Obwohl es möglich ist, mit diesen LLMs in jeder Sprache zu interagieren, werden sie mit Hunderten von Milliarden von Textparametern trainiert, hauptsächlich in Englisch. Einige Leute haben die Hypothese aufgestellt, dass sie den Großteil ihrer internen Verarbeitung in Englisch durchführen und dann im allerletzten Moment in die Zielsprache übersetzen. Dafür gab es jedoch bis heute kaum Beweise.

Tests von Llama

Forscherinnen und Forscher des Data Science Laboratory (DLAB) der Fakultät für Informatik und Kommunikation der EPFL untersuchten die Open-Source-LLM Llama-2 (großes, von Meta entwickeltes KI-Sprachmodell) und versuchten herauszufinden, welche Sprachen in welchen Stadien der Datenverarbeitungskette verwendet wurden.

"Große Sprachmodelle werden darauf trainiert, das nächste Wort vorherzusagen. Dazu ordnen sie jedes Wort einem Zahlenvektor zu, d. h. einem mehrdimensionalen Datenpunkt. Zum Beispiel wird der Artikel "der" immer genau an der gleichen festen Koordinate der Zahlen stehen", erklärt Professor Robert West, der Leiter des DLAB.

"Die Modelle verknüpfen etwa 80 Schichten identischer Rechenblöcke, von denen jeder einen Vektor, der ein Wort repräsentiert, in einen anderen Vektor umwandelt. Am Ende dieser Folge von 80 Transformationen erhält man einen Vektor, der das nächste Wort darstellt. Die Anzahl der Berechnungen wird durch die Anzahl der Schichten der Rechenblöcke bestimmt. Je mehr Berechnungen, desto leistungsfähiger ist Ihr Modell und desto höher ist die Wahrscheinlichkeit, dass das nächste Wort richtig ist".

Wie in der Vorveröffentlichung Do Llamas Work in English? On the Latent Language of Multilingual Transformers , zwangen Robert West und sein Team das Modell, nach jeder Schicht zu antworten, wenn es versuchte, das nächste Wort vorherzusagen, anstatt es die Berechnungen anhand seiner 80 Schichten durchführen zu lassen. So konnten sie sehen, welches Wort das Modell zu diesem Zeitpunkt vorhergesagt hätte. Sie stellten verschiedene Aufgaben, wie z. B. das Modell zu bitten, eine Reihe von französischen Wörtern ins Chinesische zu übersetzen.

"Wir gaben ihm ein französisches Wort, dann die chinesische Übersetzung, ein weiteres französisches Wort und die chinesische Übersetzung usw., so dass das Modell wusste, dass es das französische Wort ins Chinesische übersetzen sollte. Idealerweise sollte das Modell eine Wahrscheinlichkeit von 100 % für das chinesische Wort angeben. Als wir es jedoch vor der letzten Schicht zwangen, Vorhersagen zu treffen, stellten wir fest, dass es die meiste Zeit die englische Übersetzung des französischen Wortes vorhersagte, obwohl Englisch in dieser Aufgabe nirgendwo auftauchte. Erst in den letzten vier oder fünf Schichten ist Chinesisch tatsächlich wahrscheinlicher als Englisch", sagt Robert West.

Von Wörtern zu Konzepten

Eine einfache Annahme wäre, dass das Modell die gesamte Eingabe ins Englische übersetzt und sie direkt am Ende noch einmal in die Zielsprache übersetzt. Bei der Analyse der Daten kamen die Forscherinnen und Forscher jedoch zu einer viel interessanteren Theorie.

In der ersten Phase der Berechnungen wird dem einen oder anderen Wort keine Wahrscheinlichkeit zugewiesen. Ihrer Meinung nach konzentriert sich das Modell darauf, die Eingabeprobleme zu lösen. In der zweiten Phase, in der das Englische dominiert, glauben die Forscherinnen und Forscher, dass sich das Modell in einer Art abstraktem semantischen Raum befindet, in dem es nicht mit einzelnen Wörtern argumentiert, sondern mit anderen Arten von Darstellungen, die sich mehr auf Konzepte beziehen, in allen Sprachen universell sind und mehr ein Modell der Welt darstellen. Das ist wichtig, denn um das nächste Wort gut vorhersagen zu können, muss das Modell viel über die Welt wissen, und eine der Möglichkeiten, dies zu erreichen, besteht darin, diese Darstellung von Konzepten zu haben.

"Wir nehmen an, dass diese Darstellung der Welt in Form von Konzepten zugunsten des Englischen verzerrt ist, was sehr logisch wäre, da die Daten, die zum Trainieren dieser Modelle verwendet werden, zu etwa 90% in Englisch sind. Sie kartographieren die Eingabewörter von einem oberflächlichen Wortraum in einen tieferen Bedeutungsraum mit Darstellungen, wie diese Konzepte in der Realität miteinander verbunden sind - und die Konzepte werden auf die gleiche Weise dargestellt wie die englischen Wörter, anstatt die entsprechenden Wörter in der tatsächlichen Eingabesprache", sagt Robert West.

Monokultur und Bias

Diese Dominanz des Englischen wirft die Frage auf: "Ist das wichtig?"- Die Forscherinnen und Forscher sind der Meinung, dass dies der Fall ist. Zahlreiche Forschungsergebnisse zeigen, dass die Strukturen in der Sprache die Art und Weise beeinflussen, wie wir die Realität konstruieren, und dass die Wörter, die wir verwenden, tief damit verbunden sind, wie wir über die Welt denken. Robert West schlägt vor, mit der Erforschung der Psychologie von Sprachmodellen zu beginnen, indem man sie wie Menschen behandelt und in verschiedenen Sprachen befragt, Verhaltenstests unterzieht und ihre Voreingenommenheit beurteilt.

"Ich denke, diese Forschung hat wirklich einen wunden Punkt getroffen, denn die Menschen machen sich zunehmend Sorgen über diese Art von potenziellem Monokulturproblem. Da die Vorlagen auf Englisch besser sind, untersuchen viele Forscherinnen und Forscher nun die Möglichkeit, Inhalte auf Englisch einzuführen und in die gewünschte Sprache zu übersetzen. Aus technischer Sicht könnte das funktionieren, aber ich denke, dass wir dabei viele Nuancen verlieren, denn was man auf Englisch nicht ausdrücken kann, wird auch nicht ausgedrückt", schließt Robert West.

Entdecken Sie die neuesten Entwicklungen im Bereich der großen Sprachmodelle und der künstlichen Intelligenz bei den nächsten Applied Machine Learning Days (AMLD), die vom 23. bis 26. März 2024 im SwissTech Convention Center stattfinden werden. Weitere Informationen zu den Referentinnen und Referenten und Anmeldung .