AGATE

AGATE - Structures de graphe adaptées pour l’exploration de données de séquençage de troisième génération

Coordinateur : Monsieur Antoine Limasset CNRS CRIStAL

Équipe : Bonsai du Groupe Thématique : MSV.

Dates : 02/22 - 01/26

Résumé :

Les données de séquençage de troisième génération ont radicalement changé la bioinformatique des séquences. Grâce à leur longueur, la plupart des répétitions génomiques ne sont plus un problème et nous sommes aujourd’hui capables d’obtenir des fragments de génomes proches de l’échelle chromosomique. Toutefois, l’assemblage est toujours un sujet difficile, les séquences assemblées contiennent des erreurs et omissions de régions et de variations. De nombreuses applications basées sur les données de seconde génération sautent cette étape et utilisent un graphe de séquences, plus complet et intact.Ces approches fructueuses ont été rendues possible par l’existence de graphes pouvant être efficacement requêtés en utilisant des index capables de passer à l’échelle sur les plus grands jeux de données. Ce besoin renouvelé pour les données de troisième génération motive ce projet dont le but est de concevoir des structures de graphe capables de proposer des requêtes efficaces adaptées.

Abstract

In the last years, third-generation sequencing (TGS) changed the whole genomic landscape. Providing long-range information that can overcome most genomic repetitions, we can now obtain chromosome-scale assembled sequences even from vertebrate genomes. However, flawless de novo assembly is still a challenge as assemblies may contain errors or miss regions and variations. For second-generation sequencing (SGS), many applications choose to skip the assembly step to index and work directly on assembly graphs that still contain most relevant information before the usage of heuristics and the introduction of potential errors. Those successful approaches were possible because of graph structures that could be queried efficiently, using an index that could scale up to the largest datasets. To meet this renewed need for TGS, this project aims to conceive and implement efficient graph structures to perform versatile queries adapted to those sequences.