Proteine mit einem neuen, auf KI basierenden Ansatz entwerfen

- EN- DE - FR- IT
Siehe Text für die Legende. Credit: Alexandra Banbanaste (EPFL)
Siehe Text für die Legende. Credit: Alexandra Banbanaste (EPFL)
An der EPFL wurde ein neues KI-gestütztes Modell zur Vorhersage von Proteinsequenzen aus dem Skelett des biologischen Makromoleküls entwickelt. Dieses Modell könnte zu bedeutenden Fortschritten in der Proteinentwicklung beitragen und in der Medizin und Biotechnologie von Nutzen sein.

Bildunterschrift: Schematische Darstellung der Sequenzvorhersage mit CARBonAra. Der geometrische Transformator sampelt den Sequenzraum des Beta-Laktamase-Enzyms TEM-1 (grau), das mit einem natürlichen Substrat (cyan) komplexiert ist, um neue aktive und gut gefaltete Enzyme zu produzieren. Credit: Alexandra Banbanaste (EPFL)

Das Design von Proteinen, die bestimmte Funktionen erfüllen können, erfordert das Verständnis und die Manipulation ihrer Sequenzen und Strukturen. Diese Aufgabe ist entscheidend für die Entwicklung gezielter Therapien gegen Krankheiten und die Schaffung von Enzymen für industrielle Anwendungen.

Eine der großen Herausforderungen des Protein-Engineerings ist das Design von Proteinen de novo, d. h. aus dem Nichts, um ihre Eigenschaften an spezifische Aufgaben anzupassen. Dies hat wichtige Auswirkungen auf die Biologie, die Medizin und die Materialwissenschaften. Beispielsweise können modifizierte Proteine mit hoher Präzision auf Krankheiten abzielen, was eine wirksame Alternative zu herkömmlichen Medikamenten auf der Basis kleiner Moleküle darstellt.

Darüber hinaus können maßgeschneiderte Enzyme, die wie natürliche Katalysatoren wirken, Reaktionen erleichtern, die in der Natur selten oder gar nicht vorkommen. Diese Fähigkeit ist vor allem in der Pharmaindustrie bei der Synthese komplexer Arzneimittelmoleküle und in der Umwelttechnologie beim effizienteren Abbau von Schadstoffen oder Kunststoffen von Nutzen.

Ein Team von Wissenschaftlern unter der Leitung von Matteo Dal Peraro von der EPFL hat CARBonAra (Context-aware Amino acid Recovery from Backbone Atoms and heteroatoms) entwickelt. Dieses einzigartige KI-gestützte Modell ist in der Lage, Proteinsequenzen vorherzusagen und dabei die Einschränkungen zu berücksichtigen, die durch die verschiedenen molekularen Umgebungen entstehen. CARBonAra wird mit einem Datensatz von ca. 370.000 Untereinheiten trainiert, wobei weitere 100.000 Daten für die Validierung und 70.000 für den Test aus der Protein-Datenbank (PDB) stammen.

CARBonAra baut auf der Architektur des PeSTo-Frameworks (Protein Structure Transformer) , das ebenfalls von Lucien Krapp aus dem Team von Matteo Dal Peraro entwickelt wurde, auf. Es verwendet geometrische Transformatoren, d. h. Deep-Learning-Modelle, die räumliche Beziehungen zwischen Punkten, wie z. B. Atomkoordinaten, verarbeiten, um komplexe Strukturen zu erlernen und vorherzusagen.

CARBonAra kann Aminosäuresequenzen aus einem biologischen Polymergerüst, nämlich der Struktur von Proteinmolekülen, vorhersagen. Eine der bemerkenswertesten Eigenschaften von CARBonAra ist jedoch sein Kontextwissen, das sich besonders darin zeigt, wie es die Sequenzwiederherstellungsraten verbessert - der Prozentsatz der korrekten Aminosäuren, die an jeder Position in einer Proteinsequenz im Vergleich zu einer bekannten Referenzsequenz vorhergesagt werden.

CARBonAra verbessert die Wiederfindungsraten erheblich, wenn es molekulare "Kontexte" einbezieht, wie die Grenzflächen von Proteinen zu anderen Proteinen, Nukleinsäuren, Lipiden oder Ionen. "Das liegt daran, dass das Modell mit allen möglichen Molekülen trainiert wird und sich nur auf Atomkoordinaten stützt, so dass es nicht nur Proteine verarbeiten kann", erklärt Matteo Dal Peraro. Diese Eigenschaft verstärkt die Vorhersagekraft des Modells und seine Anwendbarkeit in realen komplexen biologischen Systemen.

Das Modell schneidet nicht nur in synthetischen Benchmarks gut ab, sondern wurde auch experimentell validiert. Die Forscherinnen und Forscher nutzten CARBonAra, um neue Varianten des Enzyms ß-Laktamase TEM-1 zu entwerfen, das an der Entwicklung von Resistenzen gegen antimikrobielle Mittel beteiligt ist. Einige der vorhergesagten Sequenzen, die sich um etwa 50% von der Wildtyp-Sequenz unterscheiden, wurden korrekt gefaltet und behalten auch bei hohen Temperaturen, wenn das Wildtyp-Enzym bereits inaktiv ist, eine gewisse katalytische Aktivität bei.

Die Flexibilität und Präzision von CARBonAra eröffnet neue Wege in der Proteinentwicklung. Seine Fähigkeit, komplexe molekulare Umgebungen zu berücksichtigen, macht es zu einem wertvollen Werkzeug für das Design von Proteinen mit spezifischen Funktionen, wodurch zukünftige Kampagnen zur Entdeckung von Medikamenten verbessert werden. Der Erfolg von CARBonAra im Bereich des Enzym-Engineerings zeigt auch sein Potenzial für industrielle Anwendungen und die wissenschaftliche Forschung.

Referenzen

Lucien F. Krapp, Fernando A. Meireles, Luciano A. Abriata, Jean Devillard, Sarah Vacle, Maria J. Marcaida, Matteo Dal Peraro. Context-aware geometric deep learning for protein sequence design. Nature Communications 25. Juli 2024. DOI: 10.1038/s41467’024 -50571-y