Soutenance de thèse de Léa Vandamme

Structures de données efficaces pour l'indexation des séquences de troisième génération

le 18 décembre 2025 à 15:00 à Bâtiment ESPRIT - Atrium

L’émergence de la troisième génération de séquençage (TGS), technologie produisant des longs reads, a transformé les approches d’analyse des données génomiques. Bien que ces longs reads permettent de surmonter certaines limites associées aux reads courts, notamment la ré- solution des régions répétées, leur assemblage et leur traitement posent encore aujourd’hui de nombreux défis. L’analyse de novo sans recours à un génome de référence s’impose dans certains contextes comme une stratégie particulièrement pertinente dans de nombreux cas, par exemple lorsque aucun génome de référence n’est disponible, dans le cadre de la transcriptomique ou en- core dans le cas d’études métagénomiques où les données proviennent de multiples organismes souvent inconnus à l’image du projet Tara Oceans récoltant des échantillons planctoniques variés. Pour que ces analyses puissent passer à l’échelle et être efficaces, notamment face au volume croissant des données mais aussi adaptées aux spécificités des longs reads, il est indispensable de s’appuyer sur des structures d’indexation efficaces et adéquates. Cette thèse s’inscrit dans ce contexte, avec pour objectif principal le développement de solu- tions de recherche d’informations qui permettront l’analyse de novo adaptées aux données issues du séquençage de troisième génération. Après une étude de l’état de l’art et de l’identification de leurs limites, nous avons proposé de nouvelles méthodes d’indexation de longs reads, pour permettre une exploitation efficace de ces séquences : détection de variations, quantification, génotypage ou encore comparaison entre jeux de données. L’apport central de cette thèse est la mise en place de stratégies, permettant l’association de k- mers aux reads auxquels ils appartiennent, capables de passer à l’échelle. Une première solution mise en place et utilisable est notre implémentation K2R (k-mer to Reads), capable d’indexer des séquençages de grande taille (plus de 100X de génome humain). Ce nouvel outil repose sur une stratégie d’indexation par minimizers, optimisée pour la performance et paramétrable afin de s’adapter à de nombreux cas d’utilisation. Nous avons par la suite étudié comment améliorer l’impact mémoire de K2R, grâce à une méthode de réordonnancement de reads et observé que ce réordonnancement permettait également d’optimiser la compression de séquençages longs reads. Dans un second temps, nous avons développé des outils complémentaires à K2R. Nous avons proposé un outil permettant la recherche en streaming de k-mers : K2Rmini. Il adopte une ap- proche inverse à celle de K2R en indexant les requêtes plutôt que le jeu de données. Nous avons également exploré un autre type d’index, complémentaire à K2R : ONIKA. ONIKA repose sur une représentation des séquences sous forme de sketchs, qui sont des sous-ensembles de k-mers, permettant une empreinte mémoire réduite. À l’image de K2R, chaque élément est associé aux jeux de données dans lesquels il apparaît, ce qui permet d’effectuer des requêtes rapides et efficaces, y compris lors de la comparaison de grands jeux de données.

Jury

M. Antoine LIMASSET Univ. Lille, CNRS, Centrale Lille, UMR 9189 CRIStAL Directeur de thèse, M. Dominique LAVENIER IRISA / INRIA, Rennes, France Rapporteur, M. Daniel GAUTHERET Université Paris-Saclay Rapporteur, Mme Thérèse COMMES Université de Montpellier, IRMB Examinatrice, Mme Marie-Eleonore KESSACI Univ. Lille, CNRS, Centrale Lille, UMR 9189 CRIStAL Examinatrice, M. Bastien CAZAUX Univ. Lille, CNRS, Centrale Lille, UMR 9189 CRIStAL Co-encadrant de thèse.

Plus d'actualités