
Des informaticiens de l’ETH ont développé un outil numérique qui permet de rechercher en quelques secondes des millions de jeux de données ADN publiés. Cela peut accélérer considérablement la recherche sur les résistances aux antibiotiques et les agents pathogènes inconnus.
Le séquençage de l’ADN a révolutionné la recherche biomédicale il y a plusieurs décennies déjà, en permettant de détecter des maladies héréditaires rares chez les patients et des mutations particulières dans les cellules tumorales. Ce sont surtout les nouvelles méthodes de séquençage (Next-Generation-Sequencing) qui ont conduit à de nombreuses percées scientifiques ces dernières années. Elles ont par exemple permis en 2020/2021 le décryptage rapide et la surveillance mondiale du génome du SRAS-CoV-2.
De plus en plus de chercheurs mettent les résultats de l’ADN séquencé à la disposition du public. C’est ainsi que d’énormes quantités de données ont vu le jour et sont stockées dans des banques de données centrales comme la SRA (Sequence Read Archive) américaine ou l’ENA (European Nucleotide Archive) européenne. Près de 100 pétaoctets de données y sont conservés - à peu près autant que l’ensemble des textes sur Internet. Un pétaoctet correspond à un million de gigaoctets.
Pour rechercher cette quantité de séquences d’ADN et les comparer à leurs propres séquences, les biomédecins ont jusqu’à présent besoin d’une grande puissance de calcul et d’autres ressources. Une recherche efficace dans cette montagne de données devient donc impossible. Des informaticiens de l’ETH Zurich ont désormais résolu ce problème.
Recherche plein texte au lieu du téléchargement de jeux de données complets
Ils ont développé un procédé qui raccourcit et facilite considérablement cette recherche. L’outil numérique "MetaGraph" recherche les données brutes de toutes les séquences d’ADN ou d’ARN stockées dans les banques de données - tout comme un moteur de recherche Internet traditionnel. Les chercheurs peuvent entrer le texte intégral d’une séquence qui les intéresse dans un masque de recherche, après quoi ils apprennent en quelques secondes ou minutes, selon la requête, où elle est déjà apparue.
"Il s’agit d’une sorte de Google pour l’ADN", résume le professeur Gunnar Rätsch, scientifique des données à l’Institut d’informatique de l’EPFZ. Jusqu’à présent, les chercheurs devaient chercher des métadonnées descriptives dans les bases de données. Pour accéder aux données brutes, ils devaient télécharger les jeux de données correspondants. Cette recherche était lacunaire, laborieuse et coûteuse.
"MetaGraph" serait comparativement avantageux, comme l’écrivent les chercheurs dans leur étude. La représentation de toutes les séquences biologiques publiques tiendrait sur quelques disques durs d’ordinateur. Des requêtes plus importantes ne devraient pas coûter plus de 0,74 dollar par mégabase.
Le moteur de recherche d’ADN développé par les chercheurs est en outre à la fois précis et efficace et peut ainsi aider à accélérer la recherche génétique - ceci par exemple en cas d’agents pathogènes peu étudiés ou de nouvelles pandémies. Cet outil pourrait ainsi devenir un catalyseur dans la recherche sur les résistances aux antibiotiques : Par exemple, en identifiant dans les banques de données des gènes de résistance ou des virus utiles capables de détruire des bactéries, appelés bactériophages.
Compression de 300 fois
Dans l’étude parue le 8 octobre dans la revue spécialisée "Nature", les chercheurs expliquent comment fonctionne "MetaGraph" : L’outil indexe les données et les présente sous forme comprimée. Il y parvient grâce à des graphes mathématiques complexes qui assurent une meilleure structure des données - un peu comme un tableur comme Excel. "Mathématiquement parlant, il s’agit d’une énorme matrice avec des millions de colonnes et des billions de lignes", explique Rätsch.
L’idée de rendre de grandes quantités de données consultables à l’aide d’index est standard dans la recherche en informatique. Mais ce qui est nouveau dans le travail des chercheurs, c’est le lien complexe entre les données brutes et les métadonnées, ainsi que la compression d’environ 300 fois, comme pour le résumé d’un livre : il ne contient plus chaque mot, mais toutes les intrigues et relations importantes sont conservées - de manière plus compacte, mais sans perte d’information pertinente.
"Nous sommes ainsi à la limite de ce qu’il est possible de faire pour maintenir les jeux de données aussi petits que possible sans perdre les informations nécessaires", explique André Kahles , qui, comme Rätsch, fait partie du Biomedical Informatics Group de l’ETH. Contrairement à d’autres masques de recherche d’ADN actuellement à l’étude, l’approche des chercheurs est évolutive. Cela signifie que plus la quantité de données interrogées est importante, moins l’outil nécessite de calculs supplémentaires.
La moitié des données déjà disponibles
Les chercheurs ont présenté "MetaGraph" pour la première fois en 2020 et l’ont amélioré en permanence depuis. L’outil est d’ores et déjà disponible pour des requêtes (lien). Il offre un masque de recherche en texte intégral pour des millions de jeux de séquences d’ADN et d’ARN ainsi que de protéines de virus, bactéries, champignons, plantes, animaux et humains. Actuellement, près de la moitié des jeux de données de séquences disponibles dans le monde sont indexés. Selon Gunnar Rätsch, le reste devrait suivre d’ici la fin de l’année. "MetaGraph" est disponible en open source et pourrait donc être intéressant pour les entreprises pharmaceutiques qui disposent de grandes quantités de données de recherche internes.
Kahles pense même qu’il est possible que le moteur de recherche d’ADN soit un jour utilisé par des personnes privées : "Au début, même chez Google, on ne savait pas encore exactement à quoi devait servir un moteur de recherche. Si l’évolution fulgurante, dans le séquençage de l’ADN, se poursuit ainsi, il deviendra peut-être courant de déterminer plus précisément ses plantes de balcon"
Référence bibliographique
Karasikov, M., Mustafa, H., Danciu, D., Kulkov, O., Zimmermann, M., Barber, C., Rätsch, G., & Kahles, A. : Efficient and accurate search in petabase-scale sequence repositories. Nature 2025, doi : 10.1038/s41586-025-09603-w




