L'effondrement des coûts de stockage et de traitement des données, conjugué à l'essor de la numérisation, a permis de nouvelles applications et possibilités pour l'apprentissage automatique. En pratique, les Big Data vont souvent de pair avec la collecte de données sensibles. Ainsi, la protection de la vie privée, notamment la prévention des fuites de données intentionnelles ou accidentelles, est l'un des principaux défis de l'intelligence artificielle digne de confiance. Une première approche pour une meilleure maitrise des données consiste à les conserver de manière décentralisée, en ne partageant que les informations nécessaires pour le processus d'apprentissage. Cela peut être réalisé soit via un serveur central orchestrant le processus dans l'apprentissage fédéré, soit à travers des communications pair-à-pair. Cependant, cela ne garantit pas que les données sont protégées tout au long du processus, l'apprentissage fédéré étant connu pour être vulnérable aux attaques de reconstruction, qui permettent de reconstruire partiellement ou totalement les données en exploitant le modèle, sans avoir directement accès aux données locales elles-mêmes. Pour quantifier et contrôler de manière fiable la perte de confidentialité, la confidentialité différentielle est actuellement la référence dans la recherche et l'industrie pour les applications d'apprentissage automatique. Dans cette thèse, nous nous situons à l'intersection entre l'apprentissage automatique, les algorithmes décentralisés et la confidentialité différentielle. Nous introduisons la première attaque de reconstruction en apprentissage décentralisé, prouvant la capacité d'exploiter les fuites de confidentialité entre participants non directement connectés entre eux, ce qui prouve la nécessité d'inclure des mécanismes de défense dans l'apprentissage décentralisé. Nous introduisons ensuite une nouvelle variante de la confidentialité différentielle, la Network Differential Privacy, adaptée à l'apprentissage décentralisé où chaque noeud ne voit que les communications locales. À l'aide de cette variante, nous analysons les garanties de confidentialité et d'utilité de divers algorithmes décentralisés, notamment les algorithmes de gossip et les marches aléatoires pour la descente de gradient stochastique et l'ADMM. Nos contributions démontrent que la décentralisation peut amplifier la confidentialité dans le cadre de la confidentialité différentielle, et que les gains dépendent de l'algorithme et du graphe de communication. Cela ouvre la voie à l'utilisation de la décentralisation comme outil pour développer des méthodes d'apprentissage automatique protégeant mieux la vie privée.
M. Aurélien BELLET Université de Lille Directeur de thèse, Mme Virginia SMITH Carnegie Mellon University Rapporteure, M. Antti HONKELA University of Helsinki Rapporteur, Mme Rachel CUMMINGS Columbia University Examinatrice, M. Hadrien HENDRIKX Inria Examinateur, M. Pierre SENELLART École normale supérieure Examinateur, M. Peter KAIROUZ Google Invité.
Thesis of the team MAGNET defended on 05/12/2024