Thesis of Yujin Wu

Apprentissage profond pour la simulation en santé. Application à l'informatique affective et à la science des données chirurgicales

Dans cette thèse, nous abordons diverses tâches dans les domaines de l’informatique affective et de la science des données chirurgicales qui ont le potentiel d’améliorer la simulation médicale. Plus précisément, nous nous concentrons sur quatre défis clés : la détection du stress, la reconnaissance des émotions, l’évaluation des compétences chirurgicales et la reconnaissance des gestes chirurgicaux. La simulation est devenue un élément important de la formation médicale, offrant aux étudiants la possibilité d’acquérir de l’expérience et de perfectionner leurs compétences dans un environnement sûr et contrôlé. Cependant, malgré des avancées significatives, la formation basée sur la simulation fait encore face à d’importants défis qui limitent son plein potentiel. Parmi ces défis figurent la garantie de scénarios réalistes, la prise en compte des variations individuelles dans les réponses émotionnelles des apprenants, et, pour certains types de simulations, comme les simulations chirurgicales, l'évaluation objective des performances. Intégrer le suivi des états cognitifs, des niveaux de stress et des états émotionnels des étudiants en médecine, ainsi que l'incorporation d'outils fournissant des retours objectifs et personnalisés, en particulier pour les simulations chirurgicales, pourrait aider à pallier ces limitations. Ces dernières années, l'apprentissage profond a révolutionné notre façon de résoudre des problèmes complexes dans diverses disciplines, entraînant des avancées significatives en informatique affective et en science des données chirurgicales. Cependant, plusieurs défis spécifiques à ces domaines subsistent. En informatique affective, la reconnaissance automatique du stress et des émotions est difficile en raison des problèmes de définition de ces états et de la variabilité de leur expression chez les individus. De plus, la nature multimodale de l'expression du stress et des émotions ajoute une couche de complexité supplémentaire, car l'intégration efficace de sources de données diverses demeure un défi majeur. En science des données chirurgicales, la variabilité des techniques chirurgicales entre les praticiens, la nature dynamique des environnements chirurgicaux, et l'intégration de plusieurs modalités soulignent les difficultés pour l'évaluation automatique des compétences chirurgicales et la reconnaissance des gestes. La première partie de cette thèse propose un nouveau cadre de fusion multimodale basé sur le Transformer pour la détection du stress, en exploitant plusieurs techniques de fusion. Ce cadre intègre des signaux physiologiques provenant de deux capteurs, chaque capteur étant traité comme une modalité distincte. Pour la reconnaissance des émotions, nous proposons une approche multimodale innovante utilisant un réseau de neurones convolutifs sur graphes (GCN) pour fusionner efficacement les représentations intermédiaires de plusieurs modalités, extraites à l'aide de Transformer encoders unimodaux. Dans la deuxième partie de cette thèse, nous introduisons un nouveau cadre d'apprentissage profond qui combine un GCN avec un Transformer encoder pour l'évaluation des compétences chirurgicales, en exploitant des séquences de données de squelettes de mains. Nous évaluons notre approche en utilisant des données issues de deux tâches de simulation chirurgicale que nous avons collectées. Nous proposons également un nouveau cadre multimodal basé sur le Transformer pour la reconnaissance des gestes chirurgicaux, intégrant un module itératif de raffinement multimodal afin d'améliorer la fusion des informations complémentaires entre différentes modalités. Pour pallier les limitations des ensembles de données existants en reconnaissance des gestes chirurgicaux, nous avons collecté deux nouveaux ensembles de données spécifiquement conçus pour cette tâche, sur lesquels nous avons effectué des benchmarks unimodaux et multimodaux pour le premier ensemble de données et des benchmarks unimodaux pour le second.

Jury

M. Mohamed DAOUDI IMT Nord Europe Directeur de thèse Mme Irene CHENG University of Alberta Rapporteure M. Stefano BERRETTI University of Florence Examinateur M. Shaun CANAVAN University of South Florida Examinateur M. Gilles LEBUFFE University of Lille Examinateur M. Ali AMAD University of Lille Co-directeur de thèse M. Denis HAMAD Université du Littoral Côte d'Opale (ULCO) Rapporteur Mme Deise SANTANA MAIA University of Lille Examinatrice M. Rachid OULAD HAJ THAMI ENSIAS, Université Mohamed V Invité M. Juan-Carlos ÁLAVAREZ PAIVA University of Lille Invité

Thesis of the team 3D SAM defended on 13/04/2023