L'épissage alternatif est un processus de régulation de la structure interne des ARNs, contribuant à la maturation des Pré-ARN en ARN mature. Ce processus, synchrone à la transcription, permet à la cellule de produire différents ARN à partir d'un même gène. On estime que 95 % des gènes humains connaissent des événements d'épissage alternatif, impliqués dans des processus cellulaires cruciaux tels que la différenciation et le développement cellulaire, la réponse au stress environnemental et l'immunité. L'épissage alternatif est étudié grâce au séquençage du transcriptome, dit de seconde ou de troisième génération. Les technologies de seconde génération, avec des lectures courtes (150 à 300 pb), offrent une excellente qualité de séquençage (taux d'erreur supérieur à 0,01 %). Cependant, la longueur limitée des lectures empêche le séquençage des transcrits en pleine longueur, entraînant une détermination ambiguë des combinaisons d’exons au sein des isoformes. À l'inverse, le séquençage de troisième génération propose des lectures longues couvrant la totalité de la longueur du transcrit (jusqu'à 30 kb), mais avec un taux d'erreur plus élevé (de 5 à 10 %) et une tendance à la troncation en début et en fin de lectures. Travailler avec des lectures longues est donc complexe et nécessite des outils et méthodes spécifiques. Depuis le début des années 2020, l'importance de l'épissage alternatif et le développement continu des technologies de séquençage à longue lecture ont conduit à une augmentation des publications d'outils d'identification des isoformes alternatifs. Ces outils proposent diverses approches pour identifier les isoformes d’épissage à l'échelle du génome, avec ou sans séquence de référence et avec ou sans annotation. Dans ce travail de thèse, nous contribuons à cet écosystème en créant le premier outil d'identification des isoformes alternatifs fonctionnant sans annotation à l'échelle du gène. RNA-Tailor est un outil versatile pour l'étude des événements d'épissage de novo, chez des espèces modèles ou non modèles, sans connaissance a priori autre qu’une séquence génomique de référence. Se focaliser sur un seul gène permet d’une part de lever les contraintes sur le temps de calcul et de gagner en précision. On peut alors utiliser des méthodes plus fines, utilisant moins d’heuristiques mais plus gourmandes en temps de calcul. Cela permet également de combiner des techniques plus précises et exigeantes en calcul, comme l'autocorrection des séquences de lectures, la correction fine des alignements par réalignement et de la correction autour des jonctions d’épissage. D’autre part, travailler à l’échelle du gène permet d’être moins synthétique et stricte. Nous pouvons nous autoriser la conservation de plus de signal dans les résultats. Ainsi, RNA-tailor est conçu pour être adapté à l'étude exploratoire des variants d'épissage avec un module complémentaire permettant d'examiner la dégradation des transcrits prédits (production d’un graphe d'inclusion, filtrage et correction des isoformes prédits selon divers critères). Cela permet, pour un gène donné, d’explorer les résultats de manière différente, sans s’attacher spécifiquement au fait d’être très sensible ou très précis. En plus de la méthode, nous présentons des résultats en comparaison des autres outils de l’état de l’art, mais aussi une analyse sur les différents étapes et outils mis en œuvre dans le pipeline de RNA-tailor. Pour cela, nous avons développé différents méthodes d’analyse pour comparer et positionner RNA-tailor par rapport aux autres outils, comme la création d'événements artificiels d'épissage pour étudier la capacité des outils à les retrouver, ou encore le taux de codons stop dans les exons internes des isoformes multi-exoniques, un indicateur permettant d'apprécier la qualité de prédiction des isoformes sans besoin d’annotation.
M. Jean-Stéphane VARRE Université de Lille - CRIStAL UMR 9189 Directeur de thèse, Mme Aïda OUANGRAOUA Université de Sherbrooke Rapporteure, Mme Elodie LAINE Sorbonne Université - LCQB UMR 7238 Rapporteure, M. Vincent LACROIX Université Lyon 1 - LBBE UMR 5558 Examinateur, M. François BOULIER Université de Lille - CRIStAL UMR 9189 Examinateur, Mme Hélène TOUZET CRIStAL UMR 9189 Invitée.
Thèse de l'équipe Bonsai soutenue le 18/10/2024