La détection des points caractéristiques du visage est une tâche essentielle pour un grand nombre d’applications telles que l’analyse faciale (p. ex., identification, expression, reconstruction 3D), l’interaction homme-machine ou encore le multimédia (p. ex., recherche, indexation). Bien que de nombreuses approches aient été proposées, les performances en conditions non contrôlées ne sont toujours pas satisfaisantes. Les variations susceptibles d'impacter l'apparence du visage (p. ex., pose, expression, éclairage, occultation, flou cinétique) en font un problème encore difficile à résoudre. Dans cette thèse, une contribution est faite à la fois sur l'analyse des performances des approches actuelles mais aussi sur la modélisation de l'information temporelle pour la détection des points caractéristiques du visage basée sur la vidéo. Une étude expérimentale est réalisée à l'aide d'un jeu de données vidéo permettant d'évaluer l'impact des variations de pose et d'expression sur la détection des points caractéristiques. Cette évaluation permet notamment de mettre en évidence les poses et expressions posant le plus de difficultés. Elle permet également d'illustrer l'importance d'une modélisation temporelle capable de tenir compte efficacement de la nature dynamique du visage. L'accent est ensuite mis sur l'amélioration de la modélisation temporelle afin de considérer le mouvement local en plus du mouvement global. Plusieurs architectures sont conçues en s'appuyant sur les deux principaux modèles de la littérature : les réseaux de régression de coordonnées et les réseaux de régression de cartes de chaleur. Les expérimentations sur deux ensembles de données confirment que la modélisation du mouvement local améliore les résultats (p. ex. avec les expressions). Ces expérimentations sont étendues par une étude portant sur la complémentarité entre l'information spatiale et temporelle ainsi que le mouvement local et global dans le but d'améliorer la conception des architectures proposées. En exploitant davantage ces complémentarités, de meilleures performances, compétitives avec l'état de l'art, sont obtenues, et ce, malgré la simplicité des modèles proposés.
M. Chaabane DJERABA Université de Lille Directeur de thèse M. Hichem SAHBI UPMC/Sorbonne Université Rapporteur M. Jean-Luc DUGELAY EURECOM Rapporteur M. Nicu SEBE University of Trento Examinateur Mme Nathalie ROLLAND Polytech Lille/Université de Lille Examinateur M. Pierre TIRILLY IMT Lille Douai/Université de Lille Examinateur M. Nacim IHADDADENE ISEN-Lille/Yncréa Examinateur Mme Karine ZEITOUNI Université de Versailles St-Quentin Examinateur M. Marius Ioan BILASCO Universit? de Lille Invité
Thèse de l'équipe FOX soutenue le 26/11/2019