Les modèles d’IA pour le développement de médicaments échouent en physique

- EN- DE- FR - IT

Les programmes d’IA les plus modernes peuvent aider au développement de médicaments en prédisant l’interaction des protéines avec de petites molécules. Des chercheurs de l’Université de Bâle montrent toutefois que ces programmes ne font qu’apprendre des modèles par c½ur au lieu de comprendre les relations physiques. Ils échouent souvent avec de nouvelles protéines qui seraient particulièrement intéressantes pour des médicaments innovants.

Les protéines jouent un rôle central non seulement dans le corps, mais aussi en médecine : elles servent soit de principe actif, par exemple comme enzyme ou anticorps, soit de structure cible pour les médicaments. La première étape pour de nouvelles thérapies est donc généralement de décrypter la structure tridimensionnelle des protéines.

Pendant longtemps, l’élucidation des structures protéiques a été une entreprise très coûteuse, jusqu’à ce que l’apprentissage automatique fasse son entrée dans la recherche sur les protéines. Des modèles d’IA portant des noms comme AlphaFold ou RosettaFold ont ouvert une nouvelle ère : ils calculent comment la chaîne des éléments constitutifs des protéines, appelés acides aminés, se replie en une structure tridimensionnelle. en 2024, les développeurs de ces programmes ont reçu le prix Nobel de chimie.

Un taux de réussite suspect

Les dernières versions de ces programmes vont même plus loin : elles calculent comment la protéine en question interagit avec une autre molécule - un partenaire d’amarrage ou ’ligand’, comme disent les spécialistes. Il peut s’agir par exemple d’une molécule de substance active.

cette possibilité de prédire la structure des protéines avec un ligand est d’une valeur inestimable pour le développement de médicaments", explique Markus Lill de l’Université de Bâle. Avec son équipe du Département des sciences pharmaceutiques, il étudie des méthodes de conception de substances actives.

Toutefois, les taux de réussite prétendument élevés en matière de prédiction structurelle ont laissé Lill et ses collaborateurs perplexes. D’autant plus que pour l’entraînement des modèles d’IA, il n’existe qu’environ 100 000 structures de protéines déjà élucidées avec leurs ligands, ce qui est relativement peu par rapport à d’autres ensembles de données d’entraînement pour l’IA. nous voulions savoir si ces modèles d’IA apprenaient vraiment les bases physico-chimiques à partir des données d’entraînement et s’ils les appliquaient correctement’, explique Lill.

Même prédiction lorsque le site de liaison est détruit

Les chercheurs ont modifié la séquence d’acides aminés de centaines d’exemples de protéines de manière à ce que le site de liaison pour leur ligand présente une répartition de charge complètement différente ou soit même complètement bloqué. Pourtant, les modèles d’IA ont prédit la même structure, comme si la liaison était toujours possible. Les chercheurs ont procédé de manière similaire avec les ligands : Ils les ont modifiés de manière à ce qu’ils ne puissent plus se fixer à la protéine en question. Là encore, les modèles d’IA n’ont pas été dérangés.

Dans plus de la moitié des cas, les modèles ont prédit la structure comme si les interventions perturbatrices dans la séquence d’acides aminés n’avaient jamais eu lieu. cela nous montre que même les modèles d’IA les plus modernes ne comprennent pas vraiment pourquoi un médicament se lie à une protéine ; ils ne reconnaissent que des modèles qu’ils ont déjà vus auparavant’, résume Lill.

Des protéines inconnues particulièrement difficiles

Les modèles d’IA ont rencontré des difficultés particulières lorsque les protéines ne présentaient aucune similitude avec les ensembles de données d’entraînement. s’ils voient quelque chose de complètement nouveau, ils se trompent vite ; or, c’est justement là que se trouve la clé de nouveaux médicaments", souligne Markus Lill.

Pour le développement de médicaments, les modèles d’IA doivent donc être considérés avec prudence. Il faut valider les prédictions des modèles à l’aide d’expériences ou d’analyses assistées par ordinateur qui tiennent réellement compte des propriétés physico-chimiques. C’est également de cette manière que les chercheurs ont vérifié les résultats des modèles d’IA au cours de leur étude.

la meilleure solution serait d’intégrer les lois physico-chimiques dans les futurs modèles d’IA", explique Lill. Ceux-ci pourraient alors, grâce à leurs prédictions structurelles plus réalistes, offrir une meilleure base pour le développement de nouveaux médicaments, en particulier pour les structures protéiques qui étaient jusqu’à présent difficiles à élucider et qui ouvriraient la possibilité d’approches thérapeutiques entièrement nouvelles.

Publication originale

Matthew R. Masters, Amr H. Mahmoud & Markus A. Lill
Investigating whether deep learning models for co-folding learn the physics of protein-ligand interactions
Nature Communications (2025), doi : 10.1038/s41467-025-63947-5