Künstliche Intelligenz entwickelt sich zu einem wichtigen Werkzeug in der chemischen Forschung. Sie bietet neue Methoden zur Bewältigung komplexer Herausforderungen, die mit herkömmlichen Ansätzen nicht gelöst werden können. Eine Art der künstlichen Intelligenz, die in der Chemie immer häufiger eingesetzt wird, ist das maschinelle Lernen. Dieses nutzt Algorithmen und statistische Modelle, um datengestützte Entscheidungen zu treffen und Aufgaben zu erledigen, für die es nicht explizit programmiert wurde.
Um zuverlässige Vorhersagen zu treffen, benötigt das maschinelle Lernen jedoch auch große Datenmengen, die in der chemischen Forschung nicht immer zur Verfügung stehen. Kleine chemische Datensätze liefern einfach nicht genug Informationen, um diese Algorithmen zu trainieren, was ihre Effizienz einschränkt.
In einer aktuellen Studie haben Wissenschaftler um Berend Smit von der EPFL eine Lösung gefunden, die auf großen Sprachmodellen wie GPT-3 basiert. Diese Modelle, die für ihre umfangreichen Fähigkeiten bekannt sind, menschenähnliche Texte zu verstehen und zu produzieren, sind auf massive Mengen von Texten vortrainiert. GPT-3 bildet die Grundlage für ChatGPT, das beliebteste KI-Tool.
Die in der Zeitschrift Nature Machine Intelligence veröffentlichte Studie enthüllt einen neuen Ansatz, der die chemische Analyse mithilfe von künstlicher Intelligenz erheblich vereinfacht. Im Gegensatz zur anfänglichen Skepsis stellt diese Methode GPT-3 nicht direkt chemische Fragen.
"GPT-3 hatte keine Kenntnis von den meisten Veröffentlichungen in der Chemie. Wenn wir also ChatGPT eine Frage aus der Chemie stellen, beschränken sich die Antworten in der Regel auf das, was wir auf Wikipedia finden können", sagt Kevin Jablonka, der leitende Forscher der Studie. "Stattdessen perfektionieren wir GPT-3 mit einem kleinen Datensatz, der in Fragen und Antworten umgewandelt wird, und schaffen so ein Modell, das genaue chemische Informationen liefern kann."
Dieser Prozess beinhaltet, dass GPT-3 mit einer Liste von Fragen und Antworten gefüttert wird. "Bei Legierungen mit hoher Entropie ist es zum Beispiel wichtig zu wissen, ob eine Legierung eine oder mehrere Phasen hat", erklärt Berend Smit. "Die Liste mit Fragen und Antworten lautet: Q = Hat die Legierung nur eine Phase? R = Ja/Nein."
Er fährt fort: "In der Literatur haben wir viele Legierungen gefunden, für die die Antwort bekannt ist. Wir haben diese Daten genutzt, um GPT-3 zu perfektionieren. Im Gegenzug erhalten wir ein verbessertes KI-Modell, das darauf trainiert ist, auf diese Frage nur mit Ja oder Nein zu antworten."
Während der Tests beantwortete das Modell, das mit relativ wenigen Fragen und Antworten trainiert wurde, über 95% der unterschiedlichsten chemischen Probleme richtig und übertraf damit oft die Genauigkeit hochmoderner Modelle des maschinellen Lernens. "Die Hauptsache ist, dass es so einfach ist wie eine Literaturrecherche, was bei vielen chemischen Problemen funktioniert", sagt Smit.
Einer der auffälligsten Aspekte dieser Studie ist die Einfachheit und Schnelligkeit dieses Tools. Herkömmliche Modelle des maschinellen Lernens erfordern monatelange Entwicklungsarbeit und umfangreiche Kenntnisse. Im Gegensatz dazu dauert der von Kevin Jablonka entwickelte Ansatz fünf Minuten und erfordert keine besonderen Kenntnisse.
Die Auswirkungen der Studie sind weitreichend. Sie stellt eine Methode vor, die so einfach wie eine Literaturrecherche ist und sich auf verschiedene chemische Probleme anwenden lässt. Die Möglichkeit, Fragen wie "Ist die Ausbeute eines [chemischen Produkts], das mit diesem [Rezept] hergestellt wird, hoch?" zu formulieren und präzise Antworten zu erhalten, kann die Art und Weise, wie chemische Forschung geplant und durchgeführt wird, revolutionieren.
In dem Artikel erklären die Autoren: "Parallel zur Literatursuche könnte die Abfrage eines Basismodells [z. B. GPT-3,4] zu einem üblichen Weg werden, um ein Projekt zu starten, indem man das in einem solchen Modell eingebettete kollektive Wissen nutzt." Laut Berend Smit wird dies die Art und Weise, wie Chemie betrieben wird, verändern.
Weitere Mitwirkende
Kevin Maik Jablonka, Philippe Schwaller, Andres Ortega-Guerrero, Berend Smit. Is GPT all you need for low-data discovery in chemistry? Nature Machine Intelligence 2023. DOI: 10.1038/s42256’023 -00788-1