Thèse de Benjamin Szczapa

Analyse/prédiction du comportement Humain dans des séquences vidéos non contrôlées

La compréhension du comportement humain est sujet de recherche important depuis plusieurs années. En effet, le développement de nouvelles machines qui travaillent et aident les humains dans leur quotidien n'a jamais été aussi important aujourd'hui. Il est alors important de développer des méthodes appropriées pour une meilleure compréhension du comportement humain. Dans ce sens, les récents progrès en informatique et en vision par ordinateur ont permit le développement de ces méthodes. La compréhension des mouvements du corps et du visage peut être effectuée par la détection de points de repères 2D ou 3D à partir de différentes sources comme une vidéo or le flux d'une caméra. Cette acquisition nous permet de construire une séquence temporelle de configurations de points de repères qui peuvent être traitées pour répondre à différents problèmes, comme la reconnaissance d'actions ou d'émotions. Cependant, des déformations peuvent être observées pendant l'analyse, du fait des changements de point de vue, la détection ou le suivi incorrect des points de repères, particulièrement dans les situations non contrôlées. Dans cette thèse, nous proposons deux approches spatio-temporelles basées sur les points de repères du corps et du visage. La représentation avec des matrices de Gram définie des matrices définissent semi-positives de rang fixe qui vivent sur des variétés Riemannienne non linéaires, sur lesquelles les techniques classiques de calculs et d'apprentissages machine ne peuvent pas être appliquées. Pour surmonter ce problème, les trajectoires définissent par des séquences de matrices de Gram sur la variété des matrices définissent semi-positives sont analysées en considérant une métrique qui respecte la géométrie Riemanienne sur la variété. L'approche proposée a été évaluée sur différentes applications d'analyse du mouvement du corps et de la reconnaissance d'action à partir de points de repères sur le corps en 2D et 3D, ainsi que sur l'analyse d'expressions faciales pour estimer le niveau de douleur à partir de points de repères faciaux. La seconde approche proposée utilise un réseau de neurone basé sur un réseau conventionnel sur les graphes et le Transformer, qui combine le calcul de l'attention au niveau spatial et temporel de séquences de repères faciaux 2D. Cette approche a été évaluée sur l'estimation de l'indice de douleur au niveau des séquences. Les résultats obtenus par l'application des deux approches sur des jeux de données importants sont compétitifs avec les récents résultats obtenus dans l'état de l'art.

Jury

M. Mohamed DAOUDI IMT Nord Europe Directeur de thèse Mme Djamila AOUADA Université du Luxembourg Rapporteure M. Denis HAMAD Université du Littoral Côte d'Opale Rapporteur M. Alberto DEL BIMBO Université de Florence Co-directeur de thèse M. Pietro PALA Université de Florence Examinateur M. Stefano BERRETTI Université de Florence Examinateur Mme Zakia HAMMAL Carnegie Mellon University Examinatrice M. Claudio FERRARI Université de Parme Examinateur

Thèse de l'équipe 3D SAM soutenue le 30/09/2022