le 15 octobre 2025 à 10:00 à INRIA Lille
Les réseaux de neurones profonds, et autres modèles d'apprentissage automatique, ont connu ses dernières années une croissance sans précédent. Avec cet engouement, est apparue une crainte de plus en plus fondée concernant la confidentialité des masses de données nécessaires à l'entraînement de ces modèles. La combinaison de ces deux facteurs a été un moteur essentiel à l'intérêt porté aux techniques d'apprentissage automatique respectueuses de la vie privée. La confidentialité différentielle s'est imposée comme canon de la mesure de confidentialité. Cette mesure est maintenant intégrée dans un grand nombre d'interactions à la donnée comme l'apprentissage automatique ou l'analyse collaborative, où plusieurs parties prenantes souhaitent interroger un donnée partagée sans exposer la leur. Le principal défi dans ce domaine est d'arbitrer entre les garanties de confidentialité et l'utilité du résultats. En effet, les techniques permettant de protéger la confidentialité vont généralement se faire au détriment de la précision du résultat. Cette thèse se concentre sur les techniques permettant d'améliorer l'apprentissage automatique de modèles et les outils d'analyse de ceux-ci, tout en garantissant un niveau satisfaisant de confidentialité sur la donnée sous-jacente. Premièrement, elle propose une approche novatrice pour les méthodes de descente de gradient respectueuse de la confidentialité en s'attaquant au biais introduit par les méthodes actuelles. En utilisant les propriétés sur la régularité du gradient plutôt que de le tronquer, comme il est d'usage dans les méthodes populaires, notre méthode parvient à limiter le biais et le bruit ajouté au gradient. Nous proposons ainsi un nouvel algorithme qui surpasse l'état de l'art sur des jeux de données variés. Deuxièmement, la thèse couvre les techniques permettant de calculer des fonctions de répartition empirique respectueuses de la confidentialité, même dans les cas où la donnée est partagée entre plusieurs entités. Cette étude propose une nouvelle méthode compatible avec différents protocoles de sécurité, offrant des garanties de confidentialité démontrables et une analyse des coûts computationnels. De nombreuses applications différentes sont testées expérimentalement, dont les résultats prouvent l'utilité de cette méthode. Par l'analyse des mécanismes d'optimisation et des fonctions de répartition, cette thèse participe au développement de techniques d'apprentissage automatique et d'analyse respectueuses de la vie privée, plus pratiques et efficaces.
M. Jan RAMON Inria Lille Directeur de thèse, M. Antoine BOUTET Inria Examinateur, M. Jean-Michel LOUBES Institut de Mathématiques de Toulouse Rapporteur, Mme Marianne CLAUSEL Université de Lorraine Rapporteure, M. Pierre BOURHIS CNRS Examinateur.