"Un motore di ricerca per il DNA"

- EN- DE- FR- IT
 (Immagine: Pixabay CC0)
(Immagine: Pixabay CC0)

Gli scienziati informatici dell’ETH hanno sviluppato uno strumento digitale che può essere utilizzato per cercare in pochi secondi milioni di set di dati sul DNA pubblicati. Ciò può accelerare notevolmente la ricerca sulla resistenza agli antibiotici e sugli agenti patogeni sconosciuti.

È possibile identificare malattie ereditarie rare nei pazienti e mutazioni specifiche nelle cellule tumorali - Il sequenziamento del DNA ha rivoluzionato la ricerca biomedica decenni fa. In particolare, i nuovi metodi di sequenziamento (sequenziamento di nuova generazione) hanno portato a numerose scoperte scientifiche negli ultimi anni. Nel 2020/2021, ad esempio, hanno permesso la rapida decodifica e il monitoraggio globale del genoma della SARS-CoV-2.

Sempre più ricercatori rendono pubblici i risultati del DNA sequenziato. Nel frattempo, sono state generate enormi quantità di dati che sono stati archiviati in database centrali come l’americano SRA (Sequence Read Archive) o l’europeo ENA (European Nucleotide Archive). Vi sono conservati circa 100 petabyte di dati, più o meno la stessa quantità di tutto il testo presente su Internet. Un petabyte corrisponde a un milione di gigabyte.

Finora, gli scienziati biomedici hanno avuto bisogno di molta potenza di calcolo e di altre risorse per cercare tra questa quantità di sequenze di DNA e confrontarle con le proprie sequenze. Questo rende la ricerca efficiente attraverso la montagna di dati una pura impossibilità. Gli informatici del Politecnico di Zurigo hanno ora risolto questo problema.

Ricerca full-text invece di scaricare interi set di dati

Hanno sviluppato un metodo che abbrevia e semplifica notevolmente la ricerca. Lo strumento digitale "MetaGraph" cerca i dati grezzi di tutte le sequenze di DNA o RNA memorizzate nei database, proprio come un motore di ricerca Internet convenzionale. I ricercatori possono inserire il testo completo di una sequenza di loro interesse in una maschera di ricerca e, a seconda della domanda, scoprire in pochi secondi o minuti dove è già apparsa.

"È una sorta di Google per il DNA", riassume il professor Gunnar Rätsch, data scientist dell’Istituto di Informatica del Politecnico di Zurigo. Finora i ricercatori dovevano cercare i metadati descrittivi nelle banche dati. Per accedere ai dati grezzi, dovevano scaricare i rispettivi set di dati. La ricerca era incompleta, lunga e costosa.

"MetaGraph" è relativamente poco costoso, come scrivono i ricercatori nel loro studio. La rappresentazione di tutte le sequenze biologiche pubbliche starebbe in pochi dischi rigidi di computer. Le ricerche più ampie non dovrebbero costare più di 0,74 dollari per megabase.

Il motore di ricerca del DNA sviluppato dai ricercatori è inoltre preciso ed efficiente e può quindi contribuire ad accelerare la ricerca genetica, ad esempio nel caso di agenti patogeni poco studiati o di nuove pandemie. Lo strumento potrebbe diventare un catalizzatore per la ricerca sulla resistenza agli antibiotici: Ad esempio, individuando nei database geni di resistenza o virus utili in grado di uccidere i batteri, noti come batteriofagi.

Compressione di un fattore 300

Nello studio pubblicato l’8 ottobre sulla rivista "Nature", i ricercatori mostrano come funziona "MetaGraph": Lo strumento indicizza i dati e li visualizza in forma compressa. Ciò avviene grazie a complessi grafici matematici che forniscono una struttura migliore per i dati, simile a quella di un foglio di calcolo come Excel. "Dal punto di vista matematico, si tratta di un’enorme matrice con milioni di colonne e trilioni di righe", spiega Rätsch.

L’idea di rendere ricercabili grandi quantità di dati con l’aiuto di indici è una prassi nella ricerca informatica. La novità del lavoro dei ricercatori, tuttavia, è il complesso collegamento dei dati grezzi e dei metadati, nonché la compressione di circa 300 volte, simile a un riassunto di un libro: non contiene più ogni parola, ma tutte le trame e le connessioni importanti sono conservate, in modo più compatto, ma senza alcuna perdita di informazioni.

"Stiamo lavorando al limite di ciò che è possibile per mantenere gli insiemi di dati il più piccoli possibile senza perdere informazioni essenziali", dice André Kahles, che, come Rätsch, è membro del gruppo di informatica biomedica dell’ETH. A differenza di altre maschere di ricerca del DNA attualmente in fase di studio, l’approccio dei ricercatori è scalabile. Ciò significa che maggiore è la quantità di dati interrogati, minore è la potenza di calcolo aggiuntiva richiesta dallo strumento.

Metà dei dati già disponibili

I ricercatori hanno presentato "MetaGraph" per la prima volta nel 2020 e da allora lo hanno continuamente migliorato. Lo strumento è già disponibile per le interrogazioni (link). Offre una maschera di ricerca full-text per milioni di set di sequenze di DNA e RNA e proteine di virus, batteri, funghi, piante, animali ed esseri umani. Attualmente è indicizzata poco meno della metà dei set di sequenze disponibili in tutto il mondo. Secondo Gunnar Rätsch, il resto seguirà entro la fine dell’anno. "MetaGraph" è disponibile come open source e potrebbe quindi essere interessante anche per le aziende farmaceutiche che dispongono di grandi quantità di dati di ricerca interni.

Kahles ritiene addirittura possibile che il motore di ricerca del DNA venga un giorno utilizzato da privati: "All’inizio, nemmeno Google sapeva esattamente a cosa sarebbe servito un motore di ricerca. Se il rapido sviluppo del sequenziamento del DNA continuerà a questo ritmo, potrebbe diventare di uso comune identificare con maggiore precisione le piante del proprio balcone"

Letteratura di riferimento

Karasikov, M., Mustafa, H., Danciu, D., Kulkov, O., Zimmermann, M., Barber, C., Rätsch, G., & Kahles, A.: Efficient and accurate search in petabase-scale sequence repositories. Nature 2025, doi: 10.1038/s41586-025-09603-w

Andres Eberhard, autore indipendente