L'émergence et la généralisation des interfaces vocales présentes dans les téléphones, les applications mobiles et les assistants numériques ont permis de faciliter la communication entre les citoyens, utilisateurs d'un service, et les prestataires de services. Citons à titre d'exemple l'utilisation de mots de passe vocaux pour les opérations bancaires, des haut-parleurs intelligents personnalisés, etc. Pour réaliser ces innovations, la collecte massive de données vocales est essentielle aux entreprises comme aux chercheurs. Mais le stockage centralisé à grande échelle des données vocales pose de graves menaces à la vie privée des locuteurs. En effet, le stockage centralisé est vulnérable aux menaces de cybersécurité qui, lorsqu'elles sont combinées avec des technologies vocales avancées telles que le clonage vocal, la reconnaissance du locuteur et l'usurpation d'identité peuvent conférer à une entité malveillante la capacité de ré-identifier les locuteurs et de violer leur vie privée en accédant à leurs caractéristiques biométriques sensibles, leurs états émotionnels, leurs attributs de personnalité, leurs conditions pathologiques, etc. Les individus et les membres de la société civile du monde entier, et particulièrement en Europe, prennent conscience de cette menace. Avec l'entrée en vigueur du règlement général sur la protection des données (RGPD), plusieurs initiatives sont lancées, notamment la publication de livres blancs et de lignes directrices, pour sensibiliser les masses et réguler les données vocales afin que la vie privée des citoyens soit protégée. Cette thèse constitue un effort pour soutenir de telles initiatives et propose des solutions pour supprimer l'identité biométrique des locuteurs des signaux de parole, les rendant ainsi inutiles pour ré-identifier les locuteurs qui les ont prononcés. Outre l'objectif de protéger l'identité du locuteur contre les accès malveillants, cette thèse vise à explorer les solutions qui le font sans dégrader l'utilité de la parole. Nous présentons plusieurs schémas d'anonymisation basés sur des méthodes de conversion vocale pour atteindre ce double objectif. La sortie de tels schémas est un signal vocal de haute qualité qui est utilisable pour la publication et pour un ensemble de tâches en aval. Tous les schémas sont soumis à un protocole d'évaluation rigoureux qui est l'un des apports majeurs de cette thèse. Ce protocole a conduit à la découverte que les approches existantes ne protègent pas efficacement la vie privée et a ainsi directement inspiré l'initiative VoicePrivacy qui rassemble les individus, l'industrie et la communauté scientifique pour participer à la construction d'un schéma d'anonymisation robuste. Nous introduisons une gamme de schémas d'anonymisation dans le cadre de l'initiative VoicePrivacy et prouvons empiriquement leur supériorité en termes de protection de la vie privée et d'utilité. Enfin, nous nous efforçons de supprimer l'identité résiduelle du locuteur du signal de parole anonymisé en utilisant les techniques inspirées de la confidentialité différentielle. De telles techniques fournissent des garanties analytiques démontrables aux schémas d'anonymisation proposés et ouvrent des portes pour de futures recherches. En pratique, les outils développés dans cette thèse sont un élément essentiel pour établir la confiance dans tout écosystème logiciel où les données vocales sont stockées, transmises, traitées ou publiées. Ils visent à aider les organisations à se conformer aux règles mandatées par les gouvernements et à donner le choix aux individus qui souhaitent exercer leur droit à la vie privée.
M. Marc TOMMASI Université de Lille Directeur de Thèse M. Aurélien BELLET INRIA Lille Examinateur M. Emmanuel VINCENT INRIA Nancy Co-directeur de Thèse M. Hamed HADDADI Imperial College London Rapporteur M. Sylvain MEIGNIER Le Mans Université Rapporteur Mme Sonia BEN MOKHTAR INSA Lyon Examinatrice
Thèse de l'équipe MAGNET soutenue le 02/12/2021