Thesis of Mireille El Assal

Apprentissage non supervisé basé sur le STDP pour l'analyse vidéo avec des réseaux neuronaux impulsionnels.

La reconnaissance des actions humaines (HAR) est une tâche importante en analyse vidéo, en raison de ses applications dans de nombreux domaines. Les réseaux neuronaux convolutionnels profonds constituent actuellement l'état de l'art en matière d’HAR, mais leur coût de calcul élevé limite leur utilisation sur les appareils à faible consommation. En outre, ils reposent essentiellement sur l'apprentissage supervisé, qui nécessite de grandes quantités de données étiquetées. Les réseaux neuronaux à impulsions (SNN) sont des modèles qui traitent les informations sous forme d’impulsions à faible énergie, au lieu de valeurs numériques. Ces derniers peuvent surmonter les limitations des réseaux neuronaux analogiques (RNA) tels que le problème de l'efficacité énergétique, lorsqu'ils sont mis en œuvre sur du matériel neuromorphique. Toutefois, les méthodes d'apprentissage supervisé des SNN, telles que la conversion ANN-SNN et la rétropropagation à impulsions, ont leurs propres limites, notamment la nécessité d'une grande quantité de données étiquetées pour l'apprentissage. D'autre part, les SNN peuvent tirer parti de règles d'apprentissage non supervisées, telles que la règle de plasticité fonction du temps d'occurrence des impulsions (STDP), ce qui réduit leur dépendance aux données étiquetées. Malgré ces avantages, les SNN non supervisés doivent encore relever des défis pour atteindre les niveaux de performance des ANN sur des données complexes. Ainsi, comprendre comment un SNN basé sur la STDP peut apprendre efficacement les caractéristiques spatio-temporelles devient crucial pour l'amélioration de leur performance. Cette thèse couvre les connaissances en vision par ordinateur et en modélisation du mouvement, ainsi que les sujets relatifs aux SNN. Dans cette thèse, notre objectif principal est d'apprendre des caractéristiques spatio-temporelles avec des SNN de manière non supervisée via STDP à des fins d’analyse vidéo. Nous étudions les moyens de combler l'écart de performance entre les SNN et les ANN lors du traitement des données spatio-temporelles. Par conséquent, la première contribution de cette thèse est d'étudier les capacités d'extraction de caractéristiques d'un réseau neuronal convolutif à impulsions (CSNN) basé sur la STDP avec différentes représentations statiques du mouvement. Les méthodes de modélisation du mouvement sont introduites, catégorisées en représentations basées sur les trames ou basées sur les séquences, et traitées à l'aide d'un CSNN 2D. On obtient ainsi un référentiel clair de la capacité de ces modèles à extraire des caractéristiques spatio-temporelles à partir de différents types de représentations du mouvement. Notre deuxième contribution est de présenter le premier modèle CSNN 3D basé sur la STDP qui peut extraire des caractéristiques spatio-temporelles naturellement à partir de vidéos, sans nécessiter d'étapes supplémentaires de modélisation du mouvement. Ce modèle est plus performant que les CSNN 2D pour l'analyse vidéo, en particulier pour les vidéos plus longues. Ensuite, dans notre troisième contribution, nous explorons la possibilité de réduire le nombre de paramètres de ces réseaux en proposant des convolutions spatiales et temporelles séparées (S3TC). Cela permet de réduire le nombre de paramètres entraînables de ces réseaux, mais aussi de réduire potentiellement la complexité pour leur mise en œuvre sur du matériel neuromorphique. Les S3TC sont plus performants que les CSNN 3D et produisent une activité plus élevée à la sortie, ce qui réduit le problème de disparition des impulsions. Notre quatrième contribution présente des CSNN à deux flux basés sur la STDP. Les méthodes à deux flux sont efficaces pour l'extraction de caractéristiques spatio-temporelles, avec des performances de pointe sur les tâches HAR dans le domaine traditionnel. Par conséquent, nous utilisons des flux spatiaux et temporels à impulsions basés sur des CSNN pour obtenir des caractéristiques spatio-temporelles.

Jury

M. Ioan Marius BILASCO Université de Lille Directeur de thèse, M. Pierre TIRILLY Université de Lille Examinateur, M. Jean MARTINET Université Côte d'Azur Rapporteur, M. Bernard GIRAU Université de Lorraine Rapporteur, M. Laurent GRISONI Université de Lille Examinateur, Mme Ewa KIJAK Université de Rennes Examinatrice.

Thesis of the team FOX defended on 06/02/2024