Résumé : Le suivi en 3D des mouvements de la tête avec une seule caméra est un sujet important et difficile pour concevoir des interfaces informatiques. Dans cette thèse nous proposons deux logiciels et étudions leurs applications à l'interface Homme machine. Le premier logiciel propose un suivi différentiel d'un ellipsoïde en 3D. Il estime récursivement la position de la tête avec des prédictions et mise à jour du modèle. Cette solution, bien que robuste, souffre de deux limites : les mouvements de la tête doivent être petits et il y a une importante dérive temporelle. D'autres pistes doivent être envisagées. la deuxième partie de cette thèse se tourne vers une nouvelle solution à détection. La nouveauté est de conduire conjointement la modélisation, l'apprentissage et le suivi. Le suivi de position est réalisé en associant un suivi dynamique avec un apprentissage hors ligne des textures de visage utilisant un modèle 3D élémentaire de la tête. De nombreuses expériences valident que les mouvements de la tête sont suivi sans dérives. Pour améliorer les performances, nous avons ajouté un algorithme de flux optique pour renforcer la cohérence temporelle en éliminant les valeurs aberrantes. Dans la dernière partie, nous présentons deux applications des algorithmes. La première vise à estimer le regard à partir de la rotation de la tête. La seconde permet d'afficher des avatars réalistes en plaquant la texture du visage extraite de la vidéo. Résumé (anglais) : Monocular 3D head tracking is a core technique for designing intelligent interfaces. Over the last decade, the objective that tracks long-term persistent poses in ever-changing environments remains a challenging problem. In this thesis, we investigate this problem by presenting two alternative frameworks and exploit its potential applications in computer-human interactions. The first framework is a robust implementation of the conventionally differential tracking approach along with a 3D ellipsoid for geometric reasoning. It recursively estimates head poses from prior prediction and dynamically updates its template. These attributes make it robust to ever observation changes and lead to smooth estimations. However, they also bring two severe problems that target movement is limited to be small and template drifting happens from time to time, which together make long-term tracking with a camera impossible. To avoid these crucial limits, the second part of this thesis turns to a novel tracking by detection approach. The novelty of our approach is to joint modeling, learning and tracking in a unified system. The pose tracking is realized by matching online features with the offline learned multi-view feature classes while the learning depends on face texture synthesis, stable class detection and multiview selection that are executed within a simple head modeling system. Extensive experiments witnesses the disappearance of model drifting as well as the success of tracking natural head movements. To further enhance the performances, we also integrate opticalflow correspondences to enforce temporal consistency during tracking by detection and incorporate color prior to clarify possible outlier features in a discriminative way. In the last part of this thesis, we present two applications of the proposed 3D head tracking system. The first is to estimate eye gaze in the presence of natural head rotations. The second is to transfer facial expressions from human being to an online avatar.
Directeur(s) de thèse : Chaillou, Christophe ; Pan, Chunhong
Thèse de l'équipe MINT soutenue le 24/09/2010