Dans cette thèse, notre défi sera de trouver la réponse à la question : comment répondre à des requêtes XPath sur des flux XML avec une faible latence, une couverture complète, une grande efficacité temporelle et un faible coût mémoire? Dans cette très, nous proposons dans un premier temps une approximation de l’algorithme de réponse au plus-tôt pour les requêtes XPath par une compilation en un automate de mots imbriqués. Nous rapproche ainsi de la latence et d’une empreinte mémoire optimales. Dans un deuxième temps, nous proposons une définition formelle de XPath 3.0. Celle-ci est obtenue en faisant correspondre XPath au nouveau langage λXP que nous introduirons. Nous montrons par la suite comment compiler des requêtes λXP en des réseaux d’automates de mots imbriqués, et développons des algorithmes de streaming pour ces derniers. Dans un troisième temps, nous allons développer un algorithme pour la projection de flux XML en fonction de la requête définie par un automate de mots imbriqués. Ainsi serons- nous en mesure de faire en sorte que notre algorithme soit temporellement très efficace. Nous avons implémenté tous nos algorithmes avec l’objectif visé d’obtenir un outil de streaming applicable dans l’industrie, et les avons testés sur les benchmarks habituels. Notre algorithme surpasse toutes les approches précédemment établies en termes d’efficacité temporelle, de couverture et de latence.
Directeur de Thèse : Joachim NIEHREN Rapporteurs : Anca MUSCHOLL, Carlo ZANIOLO Examinateurs : Kim NGUYEN
Thèse de l'équipe LINKS soutenue le 17/06/2016