Dans cette thèse, nous abordons diverses tâches de génération de squelettes 3D de corps humain en mouvement. La capacité à prédire et générer des mouvements humains est devenue un sujet important dans de nombreux secteurs tel que la conduite de véhicules autonomes, l'animation et la réalité virtuelle. Bien que l'apprentissage profond ait considérablement amélioré les performances des modèles génératifs ces dernières années, la génération de mouvements humains reste un problème ouvert. Les méthodes les plus récentes ont toujours du mal à générer des mouvements humains de bonne qualité. Cela résulte de la nécessité de modéliser les composantes spatiales et temporelles simultanément et de comprendre les interactions entre les différentes parties du corps. La tâche est également difficile en raison de la grande variabilité des mouvements, à la fois en termes de temps, puisque le même mouvement peut être effectué à une vitesse différente, et en termes d'espace, puisque l'amplitude du mouvement peut varier considérablement. De plus les mouvements 3D générés doivent être précis, réalistes et fluides. Nous proposons un nouveau réseau antagoniste génératif (GAN) prédictif de Wasserstein pour prédire la fin du mouvement d'une personne. Notre réseau prédictif utilise une représentation des courbes appelée SRVF pour modéliser la trajectoires des mouvements humains et permet une prédiction précise, en temps réel, de mouvement sans discontinuités comme le montrent nos expériences. Dans une seconde étape de la thèse nous nous intéressons à la génération des mouvements d'interaction entre deux personnes. Tout d'abord, nous présentons une nouvelle méthode pour générer un mouvement de réaction en réponse à un mouvement d'action. Contrairement aux méthodes de l'état de l'art qui se focalisent sur la génération du mouvement d'une personne, nous proposons Interformer, un Transformer qui génère des mouvements de réaction en utilisant les capacités de modélisation temporelles des réseaux Transformer ainsi que de nouveaux modules pour modéliser les interactions. Nos résultats montrent que l'approche Interformer surpasse les méthodes de l'état de l'art. Ensuite nous développons une nouvelle architecture pour générer le mouvement d'interaction de deux personnes en fonction de la classe du mouvement. Notre architecture exploite les capacités des modèles de diffusion, de l'architecture Transformer et l'apprentissage de graphes bipartis. Nos résultats montrent que notre méthode surpasse l'état de l'art quantitativement et qualitativement. Nous proposons une application qui utilise la méthode de prédiction du mouvement afin de permettre à un agent virtuel de prédire et de reconnaître le mouvement d'une personne dans le cadre des interactions non-verbales dans un environnement virtuel. Pour cela nous avons proposé une nouvelle base de données de mouvement 3D capturée avec un système de capture de mouvement de haute qualité et une caméra de profondeur.
M. Mohamed DAOUDI IMT Nord Europe Directeur de thèse M. Pietro PALA University of Florence Examinateur M. Renaud SEGUIER CentraleSupélec Rapporteur Mme Catherine PELACHAUD Sorbonne université Examinatrice Mme Angela BARTOLO Université de Lille Co-directrice de thèse Mme Hatice GUNES University of Cambridge Examinatrice Mme Antitza DANTCHEVA Centre Inria d'Université Côte d'Azur Rapporteure M. Niculae SEBE University of Trento Examinateur
Thesis of the team 3D SAM defended on 10/03/2023