Avec l'avènement de l'apprentissage profond, les réseaux de neurones artificiels (ANNs) sont devenus l'approche prédominante pour résoudre les tâches de vision par ordinateur, atteignant des performances remarquables lorsqu'ils sont correctement entraînés. Cependant, au fil du temps, les ANNs ont gagné en complexité et en taille, exigeant de plus en plus de ressources informatiques et entraînant une consommation d'énergie significative. Pour résoudre le problème de la consommation d'énergie, des technologies neuromorphiques telles que les réseaux de neurones impulsionnels (SNNs) et les caméras événementielles ont émergé comme des solutions prometteuses. Les SNNs sont des réseaux de neurones inspirés de la biologie qui traitent l'information sous forme d'impulsions binaires asynchrones. Les caméras événementielles sont des capteurs visuels économes en énergie composés de pixels indépendants réagissant de manière asynchrone aux changements de luminosité, produisant une sortie binaire et asynchrone appelée "événements". Malgré leurs avantages, notamment en termes d'efficacité énergétique, ces approches neuromorphiques restent moins développées que les solutions de vision conventionnelles comprenant des images et des ANNs. La principale motivation de cette thèse est d'approfondir notre compréhension de ces technologies neuromorphiques. Pour ce faire, nous explorons d'abord de nouveaux problèmes de vision en utilisant ces technologies, puis nous utilisons ces nouvelles tâches comme contextes expérimentaux pour analyser les aspects fondamentaux de la vision neuromorphique. Dans nos contributions, nous explorons trois principales orientations de recherche. Tout d'abord, nous développons une nouvelle technique de représentation d'événements en images événementielles, en mettant l'accent sur l'intégration efficace de l'information temporelle. Nos expériences démontrent les avantages compétitifs de notre nouvelle approche, tant en termes de performances que de robustesse face aux corruptions des caméras événementielles. Deuxièmement, nous examinons l'utilisation de SNNs profonds supervisés pour des solutions de vision artificielle économes en énergie. Nous abordons de nouveaux défis de vision par ordinateur pour les SNNs, notamment la localisation d'objet (à partir d'images ou d'événements) et la reconnaissance d'expressions faciales (FER) basée sur les événements. De plus, nous exploitons la conception de SNNs profonds pour des tâches de vision par ordinateur afin d'analyser l'impact de plusieurs aspects fondamentaux des SNNs sur leurs performances. Cela inclut une étude sur les codages neuronaux pour convertir les images en trains d'impulsions, la robustesse des SNNs face aux corruptions des capteurs, l'influence de la latence temporelle, les avantages de l'augmentation de données pour l'entraînement des SNNs, et l'efficacité énergétique des SNNs par rapport à des ANNs de même complexité. Nos études fournissent des informations cruciales, révélant les comportements spécifiques des SNNs lorsqu'ils sont entraînés de manière supervisée, par rapport à d'autres règles d'apprentissage traditionnelles pour les neurones impulsionnels. Enfin, nous posons les bases d'une nouvelle approche visant à réduire le besoin de données événementielles annotées utilisées pour former des réseaux de neurones (ANN ou SNN). Nous concevons une méthode simple mais très efficace d'apprentissage de représentations auto-supervisé (SSRL) pour pré-entraîner un encodeur convolutif sans supervision. Comme cette méthode est nouvelle, nous définissons des protocoles d'évaluation standardisés pour comparer les performances de notre approche de SSRL événementiel avec les futurs travaux de recherche. À travers nos études expérimentales, nous démontrons l'impact significatif du SSRL événementiel pour réduire la nécessité de données annotées et analysons les distinctions entre différents types de réseaux de neurones dans l'extraction de caractéristiques non supervisées.
M. Chaabane DJERABA Université de Lille Directeur de thèse. M. Jean MARTINET Université Côte d'Azur Rapporteur. M. Laurent PERRINET Aix-Marseille Université Rapporteur. Mme Clarisse DHAENENS Université de Lille Examinatrice. M. José MENNESSON IMT Nord Europe Examinateur. M. Timothée MASQUELIER Université Toulouse 3 Examinateur.
Thèse de l'équipe FOX soutenue le 05/12/2023