Les applications web sont omniprésentes au sein de la société moderne. Les plus grandes applications web peuvent servir des millions de personnes. On attend de ces applications qu’elles soient fiables et stables tout en étant capables d'évoluer pour s'adapter à ses utilisateurs. À une telle échelle, ces attentes ne peuvent être satisfaites qu'avec d'énormes ressources et du temps. Pour cette raison, il est essentiel d'approfondir notre capacité à comprendre la structure des applications web pour faciliter leur maintenance et leur évolution. Dans cette thèse, nous explorons la structure des applications web sous plusieurs angles : les tests web, l'extraction de données et l'analyse de comportement utilisateur sur le web. Notre étude montre que de nombreuses recherches liées au web, quel que soit le domaine de recherche, souffrent grandement de l'absence d'une solution générique d'inférence d'abstraction d'applications web entièrement non supervisée. Nous tentons de développer une telle solution de manière itérative aboutissant à trois contributions principales : SFTM. Tree Matching basé sur la similarité, un algorithme permettant de faire correspondre deux pages Web. Comparé aux algorithmes de matching d'arbres génériques traditionnels, SFTM produit de meilleures matching pour des temps de calcul de plusieurs ordres de grandeur plus petits. ERRATUM. Une approche permettant de réparer les localisateurs sur les applications web. ERRATUM améliore fortement la qualité des réparations pour peu ou pas de frais généraux. Nous avons intégré ERRATUM à un cadre de test open source largement utilisé. APPSTRACT. Une approche pour générer automatiquement une abstraction d'une application Web. APPSTRACT combine l'abstraction intra-page et l'abstraction inter-page à l'aide de SFTM pour générer des identifiants de localisation robustes et sémantiquement riches à l'échelle de l'application pour chaque élément d'une page Web. Nous pensons que notre travail ouvre de nombreuses nouvelles possibilités dans une variété de domaines de recherche, en particulier : la vitesse de calcul de SFTM permet des approches qui n'étaient auparavant pas possibles avec le matching d'arbres génériques et l'approche que nous décrivons dans APPSTRACT pourrait ouvrir la voie à de nouvelles solutions pour l’analyse de comportement utilisateur sur le web ou de génération de tests.
M. Lionel SEINTURIER Université de Lille Directeur de thèse M. Jean Christophe ROUTIER Université de Lille Examinateur M. Philippe COLLET Université Côte d'Azur (UCA) Examinateur M. Renaud PAWLAK Cincheo Co-directeur de thèse M. Xavier BLANC Université de Bordeaux Rapporteur Mme Dalila TAMZALIT Université de Nantes Rapporteure
Thèse de l'équipe Spirals soutenue le 05/12/2022