Progettare proteine con un nuovo approccio basato sull’intelligenza artificiale

- EN- DE- FR- IT
Vedi testo per la didascalia. Credito: Alexandra Banbanaste (EPFL)
Vedi testo per la didascalia. Credito: Alexandra Banbanaste (EPFL)
All’EPFL è stato sviluppato un nuovo modello basato sull’intelligenza artificiale per prevedere le sequenze proteiche a partire dallo scheletro della macromolecola biologica. Potrebbe contribuire a importanti progressi nell’ingegneria delle proteine ed essere utile in medicina e biotecnologia.

Didascalia immagine: Rappresentazione schematica della predizione di sequenza con CARBonAra. Il trasformatore geometrico campiona lo spazio di sequenza dell’enzima beta-lattamasi TEM-1 (grigio) complessato con un substrato naturale (ciano) per produrre nuovi enzimi attivi e ben ripiegati. Credito: Alexandra Banbanaste (EPFL)

La progettazione di proteine in grado di svolgere funzioni specifiche implica la comprensione e la manipolazione delle loro sequenze e strutture. Questo compito è essenziale per lo sviluppo di trattamenti mirati per le malattie e per la creazione di enzimi per applicazioni industriali.

Una delle principali sfide dell’ingegneria proteica consiste nel progettare proteine de novo, cioè da zero, per adattarne le proprietà a compiti specifici. Ciò ha importanti implicazioni per la biologia, la medicina e la scienza dei materiali. Ad esempio, le proteine modificate possono colpire le malattie con grande precisione, offrendo un’alternativa efficace ai tradizionali farmaci a piccole molecole.

Inoltre, gli enzimi personalizzati, che agiscono come catalizzatori naturali, possono facilitare reazioni rare o inesistenti in natura. Questa capacità è particolarmente utile nell’industria farmaceutica per la sintesi di molecole farmacologiche complesse e nella tecnologia ambientale per la scomposizione più efficiente di sostanze inquinanti o plastiche.

Un team di scienziati guidato da Matteo Dal Peraro dell’EPFL ha appena sviluppato CARBonAra (Context-aware Amino acid Recovery from Backbone Atoms and heteroatoms). Basato sull’intelligenza artificiale, questo modello unico è in grado di prevedere le sequenze proteiche tenendo conto dei vincoli imposti dai diversi ambienti molecolari. CARBonAra è stato addestrato su un set di dati di circa 370.000 subunità, con altri 100.000 dati di convalida e 70.000 dati di test provenienti dalla Protein Data Bank (PDB).

CARBonAra si basa sull’architettura del framework PeSTo (Protein Structure Transformer), anch’esso sviluppato da Lucien Krapp nel team di Matteo Dal Peraro. Utilizza trasformatori geometrici, ossia modelli di deep learning che elaborano relazioni spaziali tra punti, come le coordinate atomiche, per apprendere e prevedere strutture complesse.

CARBonAra è in grado di prevedere le sequenze di amminoacidi a partire da una struttura polimerica biologica, ovvero la struttura delle molecole proteiche. Tuttavia, una delle caratteristiche più notevoli di CARBonAra è la sua conoscenza del contesto, particolarmente evidente nel modo in cui migliora i tassi di recupero delle sequenze - la percentuale di amminoacidi corretti previsti in ogni posizione di una sequenza proteica rispetto a una sequenza di riferimento nota.

CARBonAra migliora significativamente i tassi di recupero quando include i ’contesti’ molecolari, come le interfacce delle proteine con altre proteine, acidi nucleici, lipidi o ioni. "Questo è dovuto al fatto che il modello è stato addestrato su tutti i tipi di molecole ed è basato esclusivamente sulle coordinate atomiche, il che significa che può gestire più delle sole proteine", spiega Matteo Dal Peraro. Questa caratteristica aumenta il potere predittivo del modello e la sua applicabilità a sistemi biologici reali e complessi.

Il modello non solo si comporta bene nei benchmark sintetici, ma è stato anche convalidato sperimentalmente. I ricercatori hanno utilizzato CARBonAra per progettare nuove varianti dell’enzima ß-lattamasi TEM-1, coinvolto nello sviluppo della resistenza antimicrobica. Alcune delle sequenze previste, che differiscono di circa il 50% dalla sequenza wild-type, sono state ripiegate correttamente e mantengono una certa attività catalitica ad alte temperature, quando l’enzima wild-type è già inattivo.

La flessibilità e la precisione di CARBonAra aprono nuove strade all’ingegneria proteica. La sua capacità di tenere conto di ambienti molecolari complessi lo rende uno strumento prezioso per progettare proteine con funzioni specifiche, migliorando le future campagne di scoperta di farmaci. Il successo di CARBonAra nell’ingegneria enzimatica dimostra anche il suo potenziale per le applicazioni industriali e la ricerca scientifica.

Riferimenti

Lucien F. Krapp, Fernando A. Meireles, Luciano A. Abriata, Jean Devillard, Sarah Vacle, Maria J. Marcaida, Matteo Dal Peraro. Apprendimento profondo geometrico consapevole del contesto per la progettazione di sequenze proteiche. Nature Communications 25 luglio 2024. DOI: 10.1038/s41467’024 -50571-y