Thesis of Coralie Rohmer

Alignement multiple et séquençage de troisième génération

Le séquençage d'ADN n'a cessé d'évoluer ces dernières décennies, notamment avec l'arrivée du séquençage à haut-débit. La troisième génération de séquenceurs a produit de nouvelles données, que l'on nomme {em long reads}, qui permettent d'accéder à de nouvelles informations biologiques en surmontant les contraintes des générations précédentes, telles que la faible longueur et les biais de composition des séquences. Néanmoins, du fait de leurs forts taux et profil d'erreur, ces long reads posent également de nouvelles questions d'analyses de données. Cette thèse s'inscrit dans cette problématique et traite plus précisément du sujet de l'alignement multiple des long reads. L'alignement multiple permet, comme son nom le suggère, d'aligner plusieurs séquences d'ADN entre elles. Ce domaine joue un rôle très utile dans l'analyse de séquences. Cela permet, entre autres, d'identifier des domaines fonctionnels partagés entre espèces proches, d'identifier des variations entre différents individus ou d'analyser des gènes issus d'une même famille génétique pour en retracer l'histoire évolutive en phylogénie. C'est dans ce cadre que la plupart des méthodes d'alignement multiple ont vu le jour. L'application aux long reads est particulière, puisqu'il s'agit de détecter et corriger des erreurs commises lors du séquençage mais aussi d'identifier les variations au sein de l'ADN entre différents individus. Par conséquent, l'objectif de cette thèse est de vérifier s'il est possible d'appliquer les outils déjà existants, utilisant différentes méthodes d'alignement multiple, sur les long reads. Pour cela, j'ai développé un pipeline automatisé permettant la comparaison d'outils d'alignement multiples, ainsi qu'un benchmark original sur lequel j'ai pu mener l'évaluation de neuf outils d'alignement, de manière reproductible.

Jury

Mme Hélène TOUZET Université de Lille Directrice de thèse - M. Matthias ZYTNICKI Inrae Rapporteur - M. Antoine LIMASSET Université de Lille Examinateur - M. François BOULIER Université de Lille Examinateur - M. Thierry LECROQ Université de Rouen Normandie Examinateur - Mme Sèverine BERARD Université de Montpellier Rapporteure.

Thesis of the team Bonsai defended on 04/12/2023