Aujourd'hui, la manipulation d'images à des fins non éthiques est courante, notamment sur les réseaux sociaux et dans la publicité. Les utilisateurs malveillants peuvent par exemple créer des images synthétiques convaincantes pour tromper le public ou dissimuler des messages dans des images numériques, posant des risques pour la sécurité nationale. Les chercheurs en analyse forensique d'image travaillent donc avec les forces de l'ordre pour détecter ces manipulations. Les méthodes d'analyse forensique les plus avancées utilisent notamment des réseaux neuronaux convolutifs pour les détecter. Cependant, ces réseaux sont entraînés sur des données préparées par des équipes de recherche, qui diffèrent largement des données réelles rencontrées en pratique. Cet écart réduit considérablement l'efficacité opérationnelle des détecteurs de manipulations d'images. Cette thèse vise précisément à améliorer l'efficacité des détecteurs de manipulation d'images dans un contexte pratique, en atténuant l'impact de ce décalage de données. Deux stratégies complémentaires sont explorées, toutes deux issues de la littérature en apprentissage automatique : 1. Créer des modèles capables d'apprendre à généraliser sur de nouvelles bases de données ou 2. Sélectionner, voire construire, des bases d'entraînement représentatives des images à examiner. Pour détecter des manipulations sur un grand nombre d'images non étiquetées, les stratégies d'adaptation de domaine cherchant à plonger les distributions d'entraînement et d'évaluation dans un espace latent où elles coïncident peuvent se révéler utiles. Néanmoins, on ne peut nier la faible efficacité opérationnelle de ces stratégies, étant donné qu'elles supposent un équilibre irréaliste entre images vraies et manipulées parmi les images à examiner. En plus de cette hypothèse problématique, les travaux de cette thèse montrent que ces stratégies ne fonctionnent que si la base d'entraînement guidant la détection est suffisamment proche de la base d'images sur laquelle on cherche à évaluer, une condition difficile à garantir pour un praticien. Généraliser sur un petit nombre d'images non étiquetées est encore plus difficile bien que plus réaliste. Dans la seconde partie de cette thèse, nous abordons ce scénario en examinant l'influence des opérations de développement d'images traditionnelles sur le phénomène de décalage de données en détection de manipulation d'images. Cela nous permet de formuler des stratégies pour sélectionner ou créer des bases d'entraînement adaptées à un petit nombre d'images. Notre contribution finale est une méthodologie qui exploite les propriétés statistiques des images pour construire des ensembles d'entraînement pertinents vis-à-vis des images à examiner. Cette approche réduit considérablement le problème du décalage de données et permet aux praticiens de développer des modèles sur mesure pour leur situation.
M. Patrick BAS Centrale Lille Directeur de thèse, Mme Luisa VERDOLIVA University Federico II of Naples Rapporteure, M. Kai WANG CNRS (GIPSA LAB) Rapporteur, Mme Iuliia TKACHENKO Université Lumière Lyon 2 Examinatrice, Mme Caroline FONTAINE CNRS (LMF) Examinatrice, M. Vincent ITIER IMT Nord Europe Examinateur, M. Jérémie BOULANGER Université de Lille Invité, M. Tomas PEVNY Czech Technical University Invité.
Thèse de l'équipe SIGMA soutenue le 29/11/2024