Une caméra inspirée par la biologie et une IA détectent plus rapidement les piétons et les obstacles

- EN- DE- FR - IT
L’image montre à la fois des informations de couleur provenant de la camér
L’image montre à la fois des informations de couleur provenant de la caméra couleur et des détections (points bleus et rouges) générées par la caméra d’événement, par une piétonne en train de courir. (Image : Groupe Robotique et Perception, UZH)
L’intelligence artificielle combinée à une nouvelle caméra inspirée de l’½il humain détecte les usagers de la route et les obstacles cent fois plus vite que les caméras automobiles actuelles. Ce nouveau système peut améliorer considérablement la sécurité des systèmes automobiles et des véhicules autonomes, comme le montrent des chercheurs de l’Université de Zurich.

C’est le cauchemar de tout automobiliste : un piéton qui semble surgir de nulle part devant la voiture. Il ne reste qu’une fraction de seconde pour freiner ou éviter le danger et éviter ainsi le pire. Certaines voitures disposent aujourd’hui de systèmes de caméras qui peuvent avertir les conducteurs ou déclencher un freinage d’urgence. Mais ces systèmes ne sont pas encore assez rapides et fiables pour être utilisés dans les véhicules autonomes.

Daniel Gehrig et Davide Scaramuzza de l’Institut d’informatique de l’Université de Zurich (UZH) ont maintenant développé un système qui combine une nouvelle caméra d’inspiration biologique avec une intelligence artificielle. Celui-ci peut détecter des obstacles dans l’environnement d’une voiture beaucoup plus rapidement et avec moins de puissance de calcul que les systèmes actuels, comme le montrent les deux chercheurs dans la dernière édition de la revue scientifique Nature.

La plupart des caméras actuelles sont basées sur l’image : elles prennent des clichés à intervalles réguliers. L’assistance à la conduite dans les voitures prend généralement 30 à 50 images par seconde. Un réseau neuronal artificiel peut être entraîné à reconnaître des objets sur ces images - par exemple des piétons, des vélos et d’autres véhicules. Mais si quelque chose se passe dans les 20 ou 30 millisecondes qui séparent deux clichés, la caméra risque de le voir trop tard. La solution serait d’augmenter le taux de rafraîchissement. Mais cela signifie plus de données à traiter en temps réel, et donc plus de puissance de calcul’, explique Daniel Gehrig, premier auteur de l’étude.

Les caméras événementielles reposent sur un principe différent : elles disposent de pixels intelligents qui enregistrent des informations à chaque fois qu’elles détectent un mouvement rapide. De cette manière, elles n’ont pas de point aveugle entre les différentes images - elles peuvent détecter les obstacles plus rapidement. On les appelle aussi caméras neuromorphiques, car elles imitent la façon dont l’½il humain perçoit les images’, explique Davide Scaramuzza, directeur du groupe de recherche sur la robotique et la perception. Mais elles ont aussi des faiblesses : elles peuvent ne pas voir les choses qui se déplacent lentement. Et leurs images ne peuvent pas être facilement converties sous la forme habituelle de données pour entraîner l’algorithme de l’IA.


Gehrig et Scaramuzza ont réuni le meilleur des deux mondes avec un système hybride : il comprend une caméra standard qui prend 20 images par seconde - un taux de rafraîchissement relativement faible par rapport aux caméras actuellement utilisées. Les images sont traitées par un système d’intelligence artificielle entraîné à reconnaître les voitures ou les piétons. Les données de la caméra d’événements sont couplées à un autre type de système d’IA, particulièrement adapté à l’analyse de données 3D qui évoluent au fil du temps.

Ce que la caméra d’événement voit est utilisé pour anticiper ce que la caméra standard détecte afin d’améliorer ses performances. ’Le résultat est un détecteur visuel qui peut reconnaître des objets aussi rapidement qu’une caméra standard qui prend 5’000 images par seconde. Mais elle n’a besoin que de la même bande passante qu’une caméra standard de 50 images par seconde’, explique Daniel Gehrig.

L’équipe a testé le système en le comparant aux meilleures caméras et aux meilleurs algorithmes visuels actuellement disponibles sur le marché automobile. Résultat : la détection des événements est cent fois plus rapide. Parallèlement, la quantité de données à transmettre entre la caméra et l’ordinateur de bord ainsi que la puissance de calcul nécessaire au traitement de l’image sont réduites sans que la précision n’en soit affectée. Ce qui est déterminant, c’est que le système peut détecter efficacement les voitures et les piétons qui pénètrent dans le champ de vision entre deux images successives de la caméra standard, surtout à grande vitesse.

Cette méthode pourrait devenir encore plus performante à l’avenir si les caméras étaient intégrées à des capteurs LiDAR comme dans les voitures à conduite autonome. De tels systèmes hybrides pourraient être essentiels pour assurer la sécurité nécessaire à la conduite autonome sans augmenter considérablement la puissance de calcul et de données", explique Davide Scaramuzza.