Ein neues Werkzeug zum Generieren und Entwerfen von Proteinsequenzen

- EN- DE - FR- IT

Forscherinnen und Forscher der EPFL haben eine neue Technik entwickelt, die ein Proteinsprachmodell verwendet, um Proteinsequenzen zu erzeugen, die vergleichbare Eigenschaften wie natürliche Sequenzen aufweisen. Die Methode ist leistungsfähiger als herkömmliche Modelle und bietet ein vielversprechendes Potenzial für das Proteindesign.

Das Design neuer Proteine mit einer bestimmten Struktur und Funktion ist ein sehr wichtiges Ziel des Bioengineerings, aber die enorme Größe des Proteinsequenzraums erschwert die Suche nach neuen Proteinen. Im Rahmen einer aktuellen Studie hat das Team um Anne-Florence Bitbol von der Fakultät für Biowissenschaften der EPFL jedoch herausgefunden, dass ein neuronales Deep-Learning-Netzwerk, MSA Transformer, eine vielversprechende Lösung sein könnte.

MSA Transformer wurde 2021 entwickelt und funktioniert ähnlich wie die Verarbeitung natürlicher Sprache, die vom mittlerweile berühmten ChatGPT verwendet wird. Das Team, bestehend aus Damiano Sgarbossa, Umberto Lupo und Anne-Florence Bitbol, hat eine "iterative Methode" vorgeschlagen und getestet, die auf der Fähigkeit des Modells beruht, fehlende oder verdeckte Teile einer Sequenz in Abhängigkeit vom umgebenden Kontext vorherzusagen.

Das Team fand heraus, dass MSA Transformer mit diesem Ansatz dazu verwendet werden kann, aus gegebenen Protein-"Familien" (Gruppen von Proteinen mit ähnlichen Sequenzen) neue Proteinsequenzen zu generieren, die ähnliche Eigenschaften wie die natürlichen Sequenzen aufweisen.

Tatsächlich weisen Proteinsequenzen, die aus großen Familien mit vielen Homologen generiert wurden, bessere oder ähnliche Eigenschaften auf wie Sequenzen, die mit Potts-Modellen erzeugt wurden. "Ein Potts-Modell ist eine völlig andere Art von generativem Modell, das nicht auf der Verarbeitung natürlicher Sprache oder auf Deep Learning beruht und erst kürzlich experimentell validiert wurde", erklärt Anne-Florence Bitbol. "Unser neuer Ansatz, der auf MSA Transformer basiert, hat es uns ermöglicht, Proteine auch aus kleinen Familien zu generieren, wo Potts-Modelle nicht gut abschneiden."

MSA Transformer reproduziert die in natürlichen Daten beobachteten Statistiken höherer Ordnung und die Sequenzverteilung besser als andere Modelle, was ihn zu einem ausgezeichneten Kandidaten für die Proteinsequenzgenerierung und das Proteindesign macht.

"Diese Arbeiten können zur Entwicklung neuer Proteine mit spezifischen Strukturen und Funktionen führen. Es ist zu hoffen, dass diese Ansätze in der Zukunft den Weg für wichtige medizinische Anwendungen ebnen werden", sagt Anne-Florence Bitbol. "Das Potenzial von MSA Transformer als ernsthafter Kandidat für das Proteindesign bietet spannende neue Möglichkeiten für den Bereich der Biotechnik."

Die Studie wurde in der Zeitschrift eLife veröffentlicht und von den Herausgebern wie folgt kommentiert: "Diese wichtige Studie schlägt eine Methode vor, um neue Sequenzen aus einem Proteinsprachmodell zu entnehmen, das spannende Anwendungen für das Design von Proteinsequenzen haben könnte. Diese Behauptungen werden durch eine solide vergleichende Bewertung der entworfenen Sequenzen in Bezug auf Qualität, Neuheit und Vielfalt untermauert."