De nouvelles voies d’apprentissage de l’IA

- EN- DE- FR - IT
Des physiciens de l’EPFL étudient différentes méthodes d’apprentissage de l’intelligence artificielle qui peuvent aboutir à des modèles plus intelligents et plus performants.

Alors que l’intelligence artificielle (IA) transforme les industries, de la santé à la finance, il n’a jamais été aussi important de comprendre le processus d’apprentissage de ces cerveaux numériques. Deux chercheurs de l’EPFL, Antonio Sclocchi et Matthieu Wyart, ont aujourd’hui clarifié ce processus, en étudiant une méthode répandue appelée «descente de gradient stochastique» (SGD).

Au coeur du processus d’apprentissage d’une IA se trouvent les algorithmes d’apprentissage. Il s’agit d’ensembles de règles qui permettent aux IA de s’améliorer sur la base des données qu’elles reçoivent. Le SGD est l’un de ces algorithmes. Il aide les IA à évoluer dans un environnement complexe d’informations pour trouver progressivement les meilleures solutions possibles.

Mais les voies d’apprentissage ne sont pas toutes identiques. L’étude de l’EPFL révèle comment différents paramètres du SGD peuvent influer considérablement sur l’efficacité et la qualité de l’apprentissage de l’IA. En particulier, les chercheurs ont étudié dans quelle mesure le changement de deux variables essentielles amène des résultats d’apprentissage très différents.

Ces deux variables sont la taille des échantillons de données à partir desquels l’IA apprend en une seule fois (ce que l’on appelle la «taille du lot») et l’ampleur de ses étapes d’apprentissage (autrement dit le «taux d’apprentissage»). Les chercheurs ont identifié trois scénarios distincts («régimes»), chacun présentant des caractéristiques uniques qui ont une influence différente sur le processus d’apprentissage de l’IA.

Dans le premier scénario, semblable à la découverte d’une nouvelle ville sans avoir de carte, l’IA prend de petites étapes aléatoires, en utilisant des lots petits et des taux d’apprentissage élevés, ce qui lui permet de trouver des solutions qu’elle n’aurait pas obtenues autrement. Cette approche est bénéfique pour l’exploration d’un vaste ensemble de possibilités mais peut être chaotique et imprévisible.

Le deuxième scénario implique que l’IA prenne une première étape importante d’après sa première impression, en utilisant des lots plus grands et des taux d’apprentissage plus élevés, puis des étapes exploratoires plus petites. Ce régime peut accélérer le processus d’apprentissage mais risque de passer à côté de meilleures solutions qu’une approche plus prudente aurait découvertes.

Le troisième scénario revient à utiliser une carte détaillée pour se rendre directement vers des destinations connues. Dans un tel cas, l’IA utilise de grands lots et des taux d’apprentissage plus faibles, rendant son processus d’apprentissage plus prévisible et moins sujet à l’exploration aléatoire. Cette approche est efficace mais ne peut pas toujours aboutir aux solutions les plus optimales.

L’étude permet de mieux comprendre les compromis liés à l’entraînement des modèles d’IA. Elle souligne également l’importance d’adapter le processus d’apprentissage aux besoins spécifiques de chaque application. Par exemple, le diagnostic médical pourrait bénéficier d’une approche plus exploratoire où la précision est indispensable, tandis que la reconnaissance vocale pourrait privilégier des voies d’apprentissage plus directes en termes de rapidité et d’efficacité.

Références

Antonio Sclocchi, Matthieu Wyart. On the different regimes of stochastic gradient descent. PNAS 121 (9) e2316301121, 20 February 2024. DOI: 10.1073/pnas.2316301121