A la recherche de la machine intelligente

- EN- DE- FR - IT
Elvis Nava est Fellow au AI Center de l’ETH Zurich et doctorant à la chair
Elvis Nava est Fellow au AI Center de l’ETH Zurich et doctorant à la chaire de neuroinformatique et au laboratoire de robotique douce.

Elvis Nava apprend aux robots à exécuter des ordres oraux ou écrits. Pour cela, il les envoie dans un camp d’entraînement où ils apprennent à combiner des données d’images, de textes et de mouvements.

Combiner les stimuli sensoriels

Mais comment apprendre à une machine à exécuter des ordres ? À quoi ressemble cette combinaison d’intelligence artificielle et de robotique ? Pour cela, il faut comprendre comment fonctionne le cerveau humain :

Nous percevons notre environnement en combinant différents stimuli sensoriels. Notre cerveau intègre généralement sans effort les images, les sons, les odeurs, les goûts et les stimuli haptiques en une image globale cohérente. Cette capacité permet à l’homme de s’adapter rapidement à de nouvelles situations. Nous reconnaissons intuitivement la manière dont nous devons appliquer ce que nous avons appris pour maîtriser des tâches inconnues.

"Les ordinateurs et les robots manquent encore souvent de cette capacité", explique Nava qui, après des études à Milan, a rejoint l’ETH Zurich pour un master en science des données. Grâce à l’apprentissage automatique, les programmes informatiques écrivent certes aujourd’hui des textes, mènent des entretiens et peignent des images, et les robots se déplacent eux aussi rapidement et de manière autonome sur des terrains difficiles. Mais les algorithmes d’apprentissage qui les sous-tendent ne se basent généralement que sur une seule source de données. Ils ne sont pas multimodaux, pour reprendre le jargon informatique.

Pour Nava, c’est justement un obstacle décisif sur la voie de robots plus intelligents : "Les algorithmes sont souvent entraînés pour un seul domaine de tâches à l’aide de grands ensembles de données disponibles en ligne : les modèles de traitement du langage peuvent certes utiliser le mot -chat- de manière grammaticalement correcte, mais ils ne savent pas à quoi ressemble un chat. Et les robots peuvent certes se déplacer efficacement sur des terrains difficiles, mais il leur manque généralement la capacité de reconnaître la parole et les images".

Les robots doivent aller à l’école maternelle

Elvis Nava développe donc des algorithmes d’apprentissage pour les robots, qui doivent justement pouvoir faire cela : Relier entre elles des informations provenant de différentes sources. "Si je dis au bras du robot -passe-moi la pomme à la table-, il doit associer le mot pomme aux caractéristiques visuelles d’une pomme. De plus, il doit reconnaître la pomme sur la table et savoir comment l’attraper".

Mais comment le chercheur apprend-il tout cela au bras robotisé ? Pour simplifier, Nava l’envoie dans un camp d’entraînement en deux étapes. Dans une sorte d’école maternelle, le robot apprend d’abord des compétences générales telles que la reconnaissance de la parole et des images, ainsi que des mouvements simples de la main.

Pour ces capacités, il existe déjà des modèles accessibles au public qui ont été entraînés à l’aide d’énormes ensembles de données de texte, d’images ou de vidéos. Les chercheurs alimentent par exemple un algorithme de reconnaissance d’images avec des milliers d’images portant l’étiquette "chien" ou "chat". L’algorithme apprend ensuite lui-même quelles caractéristiques - dans ce cas, des structures de pixels - caractérisent les images de chiens ou de chats.

Un nouvel algorithme d’apprentissage pour les robots

La tâche de Nama consiste maintenant à combiner les meilleurs modèles disponibles dans un nouvel algorithme d’apprentissage. Celui-ci doit traduire différentes données telles que des images, des textes ou des indications spatiales en un langage de commande uniforme pour le bras du robot. "Le mot -bière- et les images avec l’étiquette -bière- sont représentés par le même vecteur dans le modèle", explique le chercheur. Ainsi, le robot sait ce qu’il doit saisir lorsqu’on lui donne la tâche "Sers-moi une bière".

Les chercheurs qui s’intéressent de près à l’intelligence artificielle savent depuis longtemps qu’il serait prometteur d’intégrer différentes sources de données et différents modèles. Mais les modèles correspondants ne sont disponibles et accessibles au public que depuis peu. De plus, il existe désormais suffisamment de puissance de calcul pour les faire fonctionner ensemble.

Lorsque Nava parle de ces choses, elles semblent simples et intuitives. Mais c’est trompeur : "Il ne suffit pas de connaître très bien les derniers modèles. Parfois, c’est plus un art qu’une science de les faire fonctionner ensemble", dit-il. Ce sont ces problèmes épineux qui attirent particulièrement Nava. Il peut passer des heures à les étudier et à essayer de nouvelles solutions.

Entraînement spécial : imiter les humains

Une fois que le bras robotisé a passé l’école maternelle et appris à comprendre le langage, à reconnaître des images et à effectuer des mouvements simples, Nava l’envoie en formation spéciale. La machine apprend par exemple à imiter les mouvements d’une main humaine lorsqu’elle verse une bière. "Comme il s’agit de mouvements très spécifiques, il ne suffit plus de recourir à des modèles déjà existants", explique Nava.

Il montre donc à son algorithme d’apprentissage des images vidéo d’une main versant une bière. Sur la base de quelques exemples, le robot tente d’imiter ce mouvement. Pour ce faire, il utilise tous les mouvements qu’il a déjà appris à l’école maternelle. Si le bras robotisé n’avait aucune connaissance préalable, il ne serait tout simplement pas en mesure d’imiter une séquence de mouvements aussi complexe.

"Si le robot verse la bière sans en renverser, nous disons à l’algorithme d’apprentissage -bien fait- et il mémorise cette séquence de mouvements", explique Nava. Dans le jargon, on appelle cette procédure l’apprentissage par renforcement.

Les bases des assistants robotiques

Avec cette stratégie d’apprentissage en deux étapes, Nava veut faire un petit pas vers le rêve d’une machine intelligente. Il ne sait pas encore exactement jusqu’où cela le mènera. "Il n’est pas certain que les robots puissent accomplir avec cette approche des tâches que nous ne leur avons pas encore montrées au préalable".

Il est toutefois beaucoup plus probable que des assistants robotiques exécutent des ordres oraux et accomplissent des tâches qu’ils connaissent déjà ou qui leur ressemblent beaucoup. Nava ne se risque pas à répondre à la question de savoir combien de temps il faudra attendre avant que de telles applications soient utilisées dans les soins, la construction ou d’autres domaines.

Les développements dans le domaine de l’intelligence artificielle sont trop rapides et imprévisibles. Lui-même serait déjà content si la main robotique lui tendait effectivement la bière après la soutenance de sa thèse, s’il la demandait gentiment.

Christoph Elhardt