Les réseaux de neurones artificiels (RNA) sont devenus des techniques incontournables en vision par ordinateur, cette tendance ayant débuté lors du challenge ImageNet de 2012. Cependant, ce succès s'accompagne d'un coût humain non-négligeable pour l'étiquetage manuel des données, très important dans l'apprentissage des modèles et d’un coût énergétique élevé causé par le besoin de ressources de calcul importantes. Les réseaux de neurones impulsionnels (Spiking Neural Network, SNN) apportent des solutions à ces problématiques. C'est une classe particulière des RNAs, proche du modèle biologique, dans lequel les neurones communiquent de manière asynchrone en représentant l’information via des impulsions (spikes). L’apprentissage des SNN peu reposer sur une règle non supervisée : la STDP. Elle module les poids synaptiques en fonction des corrélations temporelles locales constatées entre les impulsions entrantes et sortantes. Différentes architectures matérielles ont été conçues dans le but d'exploiter les propriétés des SNN (asynchronie, opération éparse et locale, etc.) afin de concevoir des solutions peu énergivores, certaines divisant le coût de plusieurs ordres de grandeur. Les SNNs gagnent en popularité et il y a un intérêt croissant à les appliquer à la vision. Des travaux récents montrent que les SNNs acquièrent en maturité en étant compétitifs par rapport à l'état de l'art sur des datasets d'images "simples" tels que MNIST (chiffres manuscrits) mais pas sur des datasets plus complexes. Cependant, les SNNs peuvent potentiellement se démarquer des RNAs dans le traitement de vidéos. La première raison est que ces modèles intègrent une dimension temporelle en plus. La deuxième raison est qu'ils se prêtent bien à l'utilisation des caméras événementielles. Ce sont des capteurs bio-inspirés qui perçoivent les contrastes temporels d'une scène, autrement dit, ils sont sensibles au mouvement. Chaque pixel peut détecter une variation lumineuse (positive ou négative), ce qui déclenche un événement. Coupler ces caméras aux puces neuromorphiques permet de créer des systèmes de vision totalement asynchrones et massivement parallélisés. L'objectif de cette thèse est d'exploiter les capacités offertes par les SNNs dans le traitement vidéo. Afin d'explorer le potentiel offert par les SNNs, nous nous sommes intéressés à l'analyse du mouvement et plus particulièrement à l'estimation de la direction du mouvement. Le but est de développer un modèle capable d'apprendre incrémentalement, sans supervision et avec peu d'exemples, à extraire des caractéristiques spatio-temporelles. Nous avons donc effectué plusieurs études examinant les différents points mentionnés à l'aide de jeux de données événementielles synthétiques. Nous montrons que le réglage des paramètres des SNNs est essentiel pour que le modèle soit capable d’extraire des caractéristiques utiles. Nous montrons aussi que le modèle est capable d'apprendre de manière incrémentale en lui présentant des classes inédites sans détérioration des performances sur les classes maîtrisées. Pour finir, nous évoquerons certaines limites, notamment sur l'apprentissage des poids en suggérant la possibilité d'apprendre plutôt les délais, encore peu exploités et qui pourrait marquer davantage la rupture face aux RNAs.
M. Jean MARTINET Université Côte d'Azur Directeur de thèse M. Renaud PETERI La Rochelle Université - Laboratoire MIA Rapporteur M. Philippe MULHEM Centre national de la recherche scientifique Rapporteur M. Bernard GIRAU Université de Lorraine Examinateur M. Chaabane DJERABA Université de Lille Examinateur Mme Fatma BOUALI Université de Lille Examinatrice
Thèse de l'équipe FOX soutenue le 12/12/2022