Thèse de Anne-lise Bedenel

Appariement de descripteurs évoluant dans le temps. Application à la comparaison d'assurance

Dans le domaine du web, et plus particulièrement de la comparaison d’assurances, les données évoluent constamment, impliquant certaines difficultés pour les exploiter. En effet, la plupart des méthodes d’apprentissage standards, telle que la classification supervisée, nécessitent d’avoir des descripteurs de données identiques pour les échantillons d’apprentissage et de test. Or, afin de répondre aux attentes métiers, les formulaires en lignes d’où proviennent les données sont régulièrement modifiés. Ces modifications régulières des variables et des descripteurs de données complexifient les analyses car elles nécessitent de travailler avec une faible quantité de données. L’objectif de cette thèse est alors d’utiliser les données obtenues avant la modification des descripteurs de la variable pour générer de nouveaux échantillons et ainsi augmenter la taille des échantillons observés après la modification des descripteurs. Nous proposons donc d’effectuer un transfert de connaissances entre les données observées avant et après la modification des variables. Pour chaque individu, seule une donnée partielle est observée. En effet, les données sont observées soit avant, soit après la modification de la variable, entrainant un problème de données manquantes et impliquant également que les liens entre les descripteurs de la variable avant et après la modification soient totalement inconnus. Une modélisation probabiliste du problème est alors proposée afin de modéliser la loi jointe de la variable avant et après la modification de ses descripteurs. Le problème revient alors à un problème d’estimation dans un graphe où le modèle n’est pas identifiable. Afin d’assurer l’identifiabilité du modèle, des contraintes métiers et techniques sont proposées, ce qui nous amène à travailler avec un ensemble réduit de modèles très parcimonieux. Deux méthodes d’estimation sont ensuite proposées : une méthode d’estimation par vraisemblance profilée et une méthode d’estimation jointe des paramètres par maximum de vraisemblance. Travaillant avec des données manquantes, ces deux méthodes reposent sur des algorithmes EM. Les contraintes proposées nous amenant à travailler avec un ensemble de modèles, une étape de sélection de modèle est alors nécessaire. Pour cette étape, deux critères sont proposés : un critère de sélection asymptotique (le critère usuel BIC) et un critère non asymptotique (BIL) reposant sur l’analyse bayésienne. Le critère BIL consiste à calculer la vraisemblance intégrée des données observées de manière exacte, dont le calcul passe par une approximation non asymptotique effectuée à travers deux étapes : l’intégration exacte de la distribution des données complètes sur les paramètres, suivie par une approximation de la somme sur toutes les valeurs possibles pouvant être prises par les individus venus après la modification de la variable, dont l’information est manquante. Cette approximation est réalisée par une stratégie bayésienne d’échantillonnage préférentiel dont la fonction d’importance optimale est estimée à l’aide d’un échantillonneur de Gibbs. Afin d’avoir une méthode optimale aussi bien en termes d’estimation et de sélection de modèle qu’en terme de temps de calcul, deux stratégies de recherches sont proposées. La première stratégie (EXsearch) est une recherche exhaustive alors que la seconde stratégie (AGsearch) est une recherche non-exhaustive basée sur un algorithme génétique, adaptée au problème et combinant à la fois l’estimation (problème continu) et la sélection (problème combinatoire). Une analyse comparative des méthodes et critères proposés est ensuite effectuée afin de détecter la stratégie la plus adaptée dans un cadre industriel. La thèse se termine par une application de la méthode sur des données réelles.

Jury

M. Christophe BIERNACKI - Directeur de thèse : christophe.biernacki@univ-lille.fr M. Faïcel CHAMROUKHI - Rapporteur : chamroukhi@unicaen.fr M. Frédéric SAUBION - Rapporteur : Frederic.Saubion@univ-angers.fr Mme laetitia JOURDAN - CoDirecteur de thèse : laetitia.jourdan@univ-lille.fr M. Cristian PREDA - Examinateur : cristian.preda@univ-lille.fr M. Jean-Charles BOISSON - Examinateur : Jean-Charles.Boisson@univ-reims.fr

Thèse de l'équipe ORKAD soutenue le 03/04/2019