Soutenance de hdr de Camille Marchet Picy

Une approche de l'indexation : structures de données k-mer pour la réutilisation des données dans la génomique et la transcriptomique à grande échelle.

le 4 septembre 2025 à 13:30 à Bâtiment ESPRIT - Atrium

Cette thèse d'habilitation explore des stratégies algorithmiques pour l'indexation de grands ensembles de données de séquences biologiques comprenant des milliards d'objets et des téraoctets à pétaoctets de données brutes. Ce travail se concentre sur l'ADN et l'ARN en tant qu'entrées textuelles de données et s'appuie sur plusieurs années de recherche personnelle menée au laboratoire CRIStAL sur les défis liés à la conception de structures organisant des ensembles de k-mères, c'est-à-dire des ensembles de sous-chaînes courtes et de longueur fixe de séquences. En plaçant ces k-mères à toutes les positions possibles, les séquences d'ADN et d'ARN sont tokenisées en ensembles qui conservent les informations biologiques pertinentes, permettant ainsi une analyse évolutive et efficace. Alors que les technologies de séquençage produisent des volumes exponentiellement croissants de données ARN et ADN, le besoin de structures de données efficaces, évolutives et interprétables devient essentiel pour permettre une analyse significative. Cette thèse présente une vue d'ensemble structurée des familles de représentations k-mères existantes, des graphes de De Bruijn aux méthodes inspirées de la transformation de Burrows-Wheeler, en mettant l'accent sur leurs propriétés computationnelles et leurs compromis. Elle présente plusieurs contributions originales, notamment un dictionnaire statique, rapide et économe en mémoire, ainsi qu'une structure dynamique qui exploite les régularités textuelles pour prendre en charge des opérations optimisées sur les ensembles. La discussion se termine par les défis liés à l'intégration de telles structures dans les référentiels génomiques internationaux existants et futurs. Je préconise une perspective plus large sur la recherche en matière de structure des données, en concevant des outils qui restent accessibles à une large communauté d'utilisateurs grâce à des requêtes intelligentes, qui repoussent à leur tour les limites de la conception actuelle des structures de données.

Jury

Rapporteurs : Sarah Djebali, Chargée de recherches, IRSD, INSERM U1220, Toulouse Elodie Laine, Professeure, CQSB CNRS UMR 7238 ; Inserm 1284, IBPS, Sorbonne Université, Paris Sorbonne Sven Rahmann, Professor, Chair of Algorithmic Bioinformatics at Saarland University

Examinateurs : Christina Boucher, Professor, University of Florida Guy Perrière, Directeur de recherches, LBBE CNRS UMR 5558, Université Claude Bernard Lyon 1

Garant : Rémi Bardenet, Directeur de recherches, CRIStAL UMR 9189 CNRS, Université de Lille

Plus d'actualités