IA et Regard : Vers des Applications Sociétales Plus Efficaces
Le suivi oculaire est un outil essentiel dans de nombreux domaines, allant de la compréhension de l'attention au design des technologies médicales et d'assistance. Cependant, la plupart des systèmes de suivi oculaire existants exigent généralement que les utilisateurs regardent directement dans la direction de la caméra et fonctionnent mieux sous un éclairage idéal ou dans des conditions de laboratoire contrôlées. Pour pallier ces limitations, les chercheurs Jean-Marc Odobez et Pierre Vuillecard ont développé une nouvelle méthode appelée ST-WSGE (Self-Training Weakly-Supervised Gaze Estimation). Cette approche est conçue pour bien fonctionner dans des situations réelles, même lorsque les personnes tournent la tête, qu'une partie de leur visage est cachée ou que l'arrière-plan change. Cela est rendu possible en tirant parti de données d'entraînement diverses et de techniques avancées d’apprentissage automatique.
Ce qui distingue ST-WSGE, c’est sa capacité à apprendre à la fois à partir d'images du regard 3D, et d’annotations plus simples en 2D (comme des étiquettes indiquant où une personne regarde sur une image), un atout majeur compte tenu de la complexité de la collecte de données 3D par rapport à celles 2D. Ce processus se déroule en deux étapes clés : d’abord, le modèle est entraîné sur des ensembles de données 3D disponibles, puis il est affiné en utilisant des pseudo-labels 3D générés en combinant les labels 2D et ses propres prédictions. Cette approche d’apprentissage dual augmente considérablement la quantité et la diversité des données d’entraînement, ce qui se traduit par un modèle performant même dans des scénarios réels et inédits.
Une autre innovation majeure réside dans le Gaze Transformer, qui s’appuie sur la technologie des transformeurs, également utilisée dans les modèles récents de traitement du langage et de la vision. Sa conception permet de traiter aussi bien des images que des vidéos, ce qui offre la possibilité d’entraîner le modèle sur un plus grand nombre de bases de données. Cette nouvelle méthode a surpassé les approches précédentes lors de tests clés, démontrant des performances fiables dans une grande variété de conditions. Fait remarquable, elle a amélioré la précision même lorsqu’elle a été évaluée sur de nouvelles bases de données jamais rencontrés auparavant, un défi courant pour la plupart des modèles. L'ensemble de ces atouts en font une solution particulièrement adaptée à des applications sensibles au regard, telles que la surveillance de l'attention chez les conducteurs, la collaboration homme-robot, le diagnostic médical en santé mentale.
Dans un esprit de science ouverte, les chercheurs ont rendu leur code et leurs modèles publics afin de favoriser les avancées en IA basée sur le regard et de promouvoir des technologies capables de mieux interpréter les intentions humaines grâce au suivi oculaire.
L’étude a été présentée par le doctorant Pierre Vuillecard lors de la conférence IEEE Computer Vision and Pattern Recognition (CVPR) 2025 à Nashville.
À la même période, Jean-Marc Odobez, chercheur senior à l’Idiap et responsable du groupe Perception & Activity Understanding, a également traité de ce sujet dans son keynote donné à la conférence ETRA (Eye Tracking Research and Applications) 2025. Il y a exposé comment, grâce à l’analyse du regard, il est possible de décoder où les personnes dirigent leur attention et ce qui suscite leur intérêt. Sa présentation a mis en lumière les avancées de son laboratoire en matière d’estimation du regard en 3D, rendues possibles par des modèles personnalisés et l’exploitation du contexte social. De nouvelles méthodes permettant d’identifier les cibles du regard et les signaux sociaux — tels que le contact visuel ou l’attention partagée — à partir d’images ou de vidéos, ont également été présentées. Ces innovations ouvrent la voie à une meilleure compréhension de l’attention et des interactions dans des environnements réels.
Publication:
Vuillecard, P., & Odobez, J.-M. (2025). Enhancing 3D Gaze Estimation in the Wild using Weak Supervision with Gaze Following Labels. In Proceedings of the Computer Vision and Pattern Recognition Conference (CVPR) (pp. 13508-13518).
Code: https://github.com/idiap/gaze3d
ETRA Keynote: https://etra.acm.org/2025/keynotes.html