Ogni anno la ricerca produce quantità inimmaginabili di dati genetici su banche dati accessibili al pubblico. In un articolo sulla rivista scientifica "Nature Ecology & Evolution" un gruppo internazionale guidato dall’Istituto federale di ricerca per la foresta, la neve e il paesaggio WSL chiede ora che ciò avvenga in forma standardizzata. Solo cosi consentire il più ampio riutilizzo possibile di questi dati.
Deborah Leigh, esistono diversi grandi database in cui i dati genetici sono accessibili al pubblico, dai genomi completi e decodificati di vari organismi alle singole sequenze geniche. Lei e i suoi colleghi vorrebbero cambiare il modo in cui questi dati vengono archiviati. Perché?
Prendiamo ad esempio l’International Nucleotide Sequence Database Collaboration, l’INSDC, che comprende le banche dati genetiche europee, americane e giapponesi. È molto ben consolidata, esiste dal 1987, ha un’enorme mole di dati ed è una risorsa eccellente, ad esempio per l’identificazione di nuove specie o lo sviluppo di nuovi metodi. Fino al 2023, tuttavia, non esistevano standard minimi vincolanti per i metadati, cioè per i dati aggiuntivi come la data e il luogo di campionamento. La mancanza di queste informazioni rendeva molto difficile il riutilizzo completo delle informazioni genetiche corrispondenti. Questo riutilizzo è però un prerequisito per adempiere al nostro obbligo nei confronti del pubblico di utilizzare tutte le nostre risorse di ricerca nel modo più ampio possibile.
E questo non è possibile al momento?
Sì, ma è molto difficile. In primo luogo, solo una minima parte dei dati pubblicati negli articoli specialistici si trova effettivamente nei database sotto forma di dati grezzi. Questo è un problema perché senza questi dati grezzi non è possibile utilizzare appieno le informazioni archiviate. In secondo luogo, in ogni database sono presenti molti tipi di file diversi e i dati vengono elaborati in modi diversi. I diversi tipi di dati caricati non sono standardizzati, il che rende difficile il loro riutilizzo. In terzo luogo, mancano gli standard per i metadati. Ciò significa, ad esempio, che non è possibile cercare semplicemente tutti i dati di una determinata area o utilizzando un metodo specifico. La situazione si complica ulteriormente quando si effettua una ricerca su database diversi.
Cosa servirebbe per cambiare la situazione, cosa proponete nello specifico?
Proponiamo formati standardizzati per diversi tipi di dati genetici e genomici. Può sembrare poco, visto che questi formati sono già ampiamente utilizzati. Ma la standardizzazione faciliterebbe l’accesso ai dati genetici. Ad esempio, consentirebbe a ricercatori e operatori non specializzati di condividere più facilmente con nuovi partner dati con una chiara storia di elaborazione. La standardizzazione eliminerebbe anche le barriere tecnologiche al riutilizzo, come la necessità di avere accesso a un cluster di computer per elaborare i dati. Ciò contribuirebbe a garantire una maggiore equità a livello globale.
E che dire dei metadati di cui ha parlato?
Chiediamo che vengano memorizzati tutti i metadati possibili e innocui per la specie in questione. Per alcune specie protette, ad esempio, potrebbe essere più sicuro non specificare alcuna località. Questo è importante per varie ragioni. Molte rianalisi che utilizzano metodi di genetica delle popolazioni e dei paesaggi non sono possibili senza informazioni sulla località o sull’anno di campionamento. Si tratta anche di mantenere i dati disponibili per innovazioni future. Forse non stiamo ancora pensando agli usi che altri ricercatori faranno in futuro. Per renderlo possibile, dobbiamo fornire loro il maggior numero possibile di informazioni aggiuntive. Nella nostra pubblicazione, inoltre, invitiamo esplicitamente gli scienziati ad archiviare retrospettivamente i dati più vecchi o a integrarli per conformarsi a questi nuovi standard e correggere gli errori. Il nostro obiettivo è che tutti i set di dati prodotti in passato o che verranno prodotti in futuro siano accessibili e possano essere utilizzati in ogni modo possibile per massimizzare i benefici dei finanziamenti alla ricerca. In sostanza, in modo che il pubblico ottenga "il massimo per il proprio denaro".
Perché è così importante elaborare soprattutto i vecchi dati e arricchirli con altri dati?
In particolare, i dati degli anni ’90 o dei primi anni 2000 sono spesso archiviati in un formato poco accessibile. Tuttavia, sono molto preziosi perché rappresentano una base di diversità genetica precedentemente mancante. I dati più vecchi sono importanti anche per riconoscere cali o cambiamenti recenti nella diversità genetica, il che potrebbe aiutarci a fermare queste perdite prima che causino danni. Con il progredire dei cambiamenti climatici, è probabile che questa base di riferimento diventi importante anche per valutare l’impatto dei cambiamenti climatici estremi sulla diversità genetica e sulla capacità delle specie di riprendersi in un mondo in rapida evoluzione.
La discussione sull’archiviazione dei dati in genetica è nuova?
No, la genetica ha una lunga storia di dati aperti di cui il settore va fiero. Stiamo contribuendo a un dibattito in corso proponendo formati standardizzati e requisiti minimi di metadati per l’archiviazione. L’INSDC ha già aumentato i requisiti per i metadati, che dallo scorso anno devono includere anche l’ora e il luogo del campionamento. Il progetto GenDiB , sostenuto dall’UFAM, sta lavorando alla creazione di una banca dati nazionale con dati sulla diversità genetica delle popolazioni di fauna selvatica svizzere. Anche altre banche dati partecipano alla discussione.