Un approccio che combina calcoli sicuri e algoritmi distribuiti sta aprendo una nuova era per la collaborazione sui dati nella ricerca medica. È stato sviluppato dalla ricerca dell’EPFL, in collaborazione con il MIT e Yale.
I progressi dell’intelligenza artificiale generativa e dell’apprendimento automatico, basati su serie di dati su larga scala archiviati in diverse istituzioni, hanno il potenziale per rivoluzionare la medicina. Purtroppo i dati sono difficili da raccogliere. Sono compartimentati negli ospedali, negli studi medici e nelle cliniche di tutto il mondo. Anche i rischi per la privacy derivanti dalla divulgazione dei dati medici sono una delle principali preoccupazioni. Di conseguenza, le normative vigenti in materia di condivisione dei dati hanno ampiamente limitato le possibilità di collaborazione nella ricerca medica.
Esistono naturalmente strumenti crittografici per proteggere i calcoli, ma sono poco pratici o non implementano i metodi più recenti. Oggi è stato dimostrato il successo su larga scala di un approccio sviluppato dall’EPFL. Questo approccio è ora in fase di implementazione in tutta Europa.
Gli studi di associazione genome-wide federati sicuri (SF-GWAS) sono una combinazione di calcolo sicuro e algoritmi distribuiti che consentono studi efficienti e accurati di dati sensibili detenuti da più entità, garantendo al contempo la riservatezza dei dati. Uno studio su cinque set di dati, tra cui una coorte di 410.000 individui provenienti dalla biobanca del Regno Unito, ha mostrato un miglioramento di un ordine di grandezza nei tempi di esecuzione rispetto ai metodi precedenti.
"In molti casi non è possibile centralizzare i dati, per motivi pratici o legali, o semplicemente perché gli specialisti non vogliono condividerli. L’obiettivo è quindi quello di estrarre informazioni senza condividere i dati", spiega Jean-Pierre Hubaux, direttore accademico del Center for Digital Trust (C4DT) dell’EPFL, affiliato alla Facoltà di Scienze informatiche e della comunicazione.
"Abbiamo sviluppato un prototipo diversi anni fa, ma mancava la dimostrazione che funzionasse in scala con set di dati di dimensioni reali. Questo è stato fatto in collaborazione con il MIT e Yale, e la nostra ultima ricerca dimostra che è possibile estrarre informazioni da insiemi di dati geograficamente distribuiti, senza alcuna perdita significativa di precisione in termini di risultati; questo apre una nuova era in termini di collaborazione sui dati", continua.
SF-GWAS combina due concetti chiave. In primo luogo, adotta un approccio federato al calcolo sicuro, il che significa che ogni set di dati è conservato presso il rispettivo sito di origine. In questo modo si minimizzano i costi di calcolo evitando i trasferimenti di dati tra i siti e si utilizzano operazioni crittografiche efficienti che proteggono i risultati parziali del calcolo generati in ciascun sito.
In secondo luogo, introduce un design algoritmico efficiente per supportare l’esecuzione federata di diverse pipeline GWAS end-to-end.
"Può sembrare controintuitivo, ma il nostro approccio condivide i dati senza condividerli", spiega JP Hubaux. "Sfrutta l’esistenza di insiemi di dati senza doverli trasferire e fornisce un valore aggiuntivo per i dati, un ulteriore incentivo a lavorare insieme senza perdere il controllo".
SF-GWAS è già stato installato nei cinque ospedali universitari della Svizzera ed è attualmente in fase di implementazione in diversi ospedali in Italia e per le reti oncologiche europee da parte di Tune Insight, lo spin-off dell’EPFL che ha commercializzato la soluzione. L’azienda sta inoltre discutendo con istituzioni mediche di altri Paesi.
Oltre a favorire la ricerca medica su larga scala, in particolare per definire e ottimizzare le politiche di salute pubblica, cosa che non è possibile in un mondo di silos, questo sistema avrà un altro vantaggio. Attualmente, i dataset sono generalmente distribuiti in tutto il mondo, su dischi rigidi e nastri magnetici qua e là, perché è sempre stato molto difficile trasferire i dati. Anche la registrazione dei dati medici è applicata in modo diverso da luogo a luogo. Jean-Pierre Hubaux descrive questa situazione come "preistorica" e afferma che, di conseguenza, i set di dati sono ampiamente sottoutilizzati.
"Il sistema che stiamo mettendo in atto incoraggia i medici specialisti a rendere i dati interoperabili: saranno registrati in modo coerente da un luogo all’altro. Questo sforzo per migliorare la qualità dei dati è costoso e richiederà tempo, ma abbiamo sviluppato gli strumenti necessari per facilitare questa evoluzione", spiega Jean-Pierre Hubaux.
"La volontà di lavorare su larga scala è un cambiamento culturale e dovrebbe innescare un circolo virtuoso: gli specialisti si sentono incoraggiati a essere più rigorosi nel modo in cui archiviano e strutturano i loro dati per garantire l’interoperabilità, perché se non lo fanno, la loro istituzione rischia di essere esclusa dal resto della comunità. Questo porterà a una migliore qualità dei dati medici e sanitari".
Un nuovo strumento crittografico per studi genomici sicuri
Link
Traduzione da myScience



