Thesis of Nadia Hosni

De l'analyse en composantes principales fonctionnelle à l'autoencodeur convolutif profond sur les trajectoires de formes de Kendall pour l'analyse et la reconnaissance de la démarche en 3D

Récemment, le développement de solutions automatiques et intelligentes pour la compréhension du contenu des vidéos et plus particulièrement pour l’analyse spatio-temporelle des mouvements Humains est au cœur de plusieurs domaines de recherche tels que les vidéos surveillances, les interactions Homme-Machine et la rééducation. Dans ce projet de thèse, nous proposons de procéder à l’analyse et la reconnaissance de la démarche en 3D qui est aussi un domaine de recherche actif en biométrie comportementale grâce au caractère non-invasif (aucune coopération de l’utilisateur), convivial (user-friendly) et bon marché de la démarche. Cette dernière a suscité plus d’intérêt avec la démocratisation de caméras de profondeurs bon marché (e.g., la Kinect), capables d’estimer en temps réel et de manière relativement précise les squelettes 3D et leurs mouvements, quand la personne est dans le champ de vue du capteur. Mais ces données squelettiques souffrent de la variabilité temporelle et spatiale. Pour faire face à ces verrous, nous proposons des nouvelles approches à partir de données squelettiques 3D où une séquence est d’abord représentée sur l’espace de formes de Kendall S par une trajectoire paramétrée par le temps. Les variabilités liées à l’échelle, la translation et la rotation sont ainsi filtrées. Cependant, vu la structure sphérique (non-linéaire) de la variété S, il n’est pas possible d’appliquer des techniques d’apprentissage automatique conventionnelle directement. C’est pourquoi nous avons eu recours à quelques outils de la géométrie riemannienne pour gérer le problème de non linéarité. Notre première contribution présente une adaptation de l’Analyse en Composantes Principales Fonctionnelle (ACP fonctionnelle), qui tient compte de la nonlinéarité de l’espace de Kendall S. A l’issue de l’étape d’apprentissage, une nouvelle base de trajectoires principales, i.e., fonctions principales, est constituée. Étant donné une nouvelle trajectoire, elle est projetée sur cette nouvelle base avant d’être classée par une Machine à Vecteurs de Support (SVM). Les résultats expérimentaux sur différentes bases de données sont très compétitifs comparés à la littérature avec en plus une signature plus compacte et plus robuste. De plus, motivés par la puissance des réseaux de neurones et de l’apprentissage profond (Deep Learning), nous proposons, en deuxième méthode, un autoencodeur convolutif profond à caractère géométrique puisqu’il analyse les trajectoires de formes précédemment citées tout en tenant compte de la structure géométrique de notre espace de représentation. En fait, des étapes géométriques assurent que ces trajectoires peuvent être transmises à l’autoencodeur convolutif pour aboutir à une représentation compacte et discriminante permettant une bonne identification des personnes, et ce sans avoir recours à aucune technique d’alignement (e.g., DTW) ni de modélisation temporelle (e.g., HMM, RNN). Les résultats obtenus sur plusieurs bases publiques sont prometteurs par application à la reconnaissance de la démarche en 3D.

Jury

M. Boulbaba BEN AMOR IMT Lille Douai Directeur de thèse Mme Azza OULED ZAID National Engineering School of Tunis (ENIT), University of Tunis Rapporteure M. Christophe ROSENBERGER École nationale supérieure d'ingénieurs de Caen Rapporteur M. Faouzi GHORBEL Ecole Nationale des science de l'informatique Co-directeur de thèse M. Franck MULTON Université Rennes 2 Examinateur Mme Valérie BURDIN IMT Atlantique Examinatrice M. Slim M'HIRI Ecole Nationale des Sciences de l'Informatique Examinateur M. Moncef TAGINA Ecole Nationale des Sciences de l'Informatique Examinateur

Thesis of the team 3D SAM defended on 26/11/2020