ASTER

ASTER - Algorithmes et outils logiciels pour le séquençage d’ARN de troisième génération

Porteur : Hélène Touzet, Directeur de Recherche CNRS CRIStAL

Équipe : Bonsaï du Groupe Thématique : MSV

Partenaires : CRIStAL, CEA - GENOSCOPE Commissariat à l’énergie atomique et aux énergies alternatives, Erable - LBBE Laboratoire de Biométrie et Biologie Évolutive - U LYON1, INSTITUT PASTEUR DE LILLE.

PRC - Projet de recherche collaborative

Recherche fondamentale

Dates : 11/16 - 11/20

Résumé :

Nous proposons de développer des algorithmes et des outils logiciels pour l’analyse de données de séquençage de troisième génération. Le séquençage de troisième génération est une technologie émergente qui ouvrent de nouvelles perspectives pour l’étude des génomes, des transcriptomes, des métagénomes et des métatranscriptomes, et promet d’avoir un impact important en biologie, avec de nombreuses applications en santé, environnement et agro-alimentaire.

Par rapport au séquençage de deuxième génération, le séquençage de troisième génération produit des fragments qui couvrent une plus large portion de la molécule, jusqu’à plusieurs milliers de bases. Cette propriété permet de surmonter les limitations actuelles du séquençage de deuxième génération et peut être qualifiée de révolution. De manière remarquable, cette transition n’impacte pas ni le coût de séquençage, ni la facilité de production des données. Elle permet même d’envisager une démocratisation plus avancée du séquençage, avec l’avènement d’instruments miniatures à bas coût, tels que le MinION commercialisé par Oxford Nanopore Technologies.

Le projet ASTER s’intéresse plus particulièrement à l’analyse de données nanopore pour le transcriptome. Le transcriptome est l’ensemble des ARN exprimés dans une population de cellules. Son étude permet de comprendre quelles sont les fractions du génome exprimées et de les caractériser. C’est une étape importante pour la prédiction de gènes, l’identification de variants, l’identification d’espèces dans une communauté… D’un point de vue bioinformatique, analyser ces nouvelles données est un problème difficile en raison du fort taux d’erreurs de séquençage, de la masse des données et de la complexité intrinsèque des données de transcriptome. Dans cette perspective, nous voulons développer des algorithmes et des modèles pour le transcriptome (ARN d’un seul organisme), le séquençage ARN ribosomiques 16S d’une communauté, et le métatranscriptome (ARN total échantillonné d’une communauté d’organismes). Pour cela, nous considérerons plusieurs cas de figure suivant la disponibilité de données de deuxième génération ou d’un génome de référence. Nous proposerons une batterie de solutions spécialisées complémentaires : alignement, correction d’erreurs, structure des gènes, variants, assignation taxonomique. Ces recherches reposeront sur le meilleur de l’état de l’art en algorithmique du texte, et nous amèneront à faire de nouvelles contributions dans ce domaine : nouveaux modèles de graines, compression, structures de graphes, structures d’index.

Le projet réunit deux équipes expertes en algorithmique pour la bioinformatique (Bonsai, CRIStAL à Lille et Erable, LBBE à Lyon), et deux plateformes de séquençage et d’analyse qui ont participé activement au MAP, le programme pilote international de test du MinION (Genoscope et Institut Pasteur de Lille). Bonsai et Erable partagent une longue expérience de développement d’algorithmes et de logiciels pour l’analyse de données de séquençage à haut débit (Kissplice, CRAC, sortmeRNA). Le Genoscope et l’Institut Pasteur de Lille vont permettre à l’ensemble de partenaires du projet de suivre la technologie et d’accéder aux dernières versions du MinION et du Promethion. Ils apportent également leur vision experte de ces données. Par exemple, le Génoscope a récemment publié le pipeline NAS pour la correction d’erreurs.

Tous les algorithmes seront valorisés par le développement de logiciels libres, dont la publicité sera faite par des publications de haut niveau et par une diffusion au sein du réseau national France Génomique. Ils seront également intégrés à la bibliothèque GATB, ce qui accroîtra encore l’audience de ce travail. Les données de séquençage générées spécifiquement pour le projet feront l’objet de dépôts dans des archives publiques, afin de servir de benchmarks à l’ensemble de la communauté.

Abstract

We propose to develop algorithms and software for analyzing third generation sequencing data. Third generation is an emerging technology that promises to give a better picture for studying genomes, transcriptomes, metagenomes and metatranscriptomes of all living organisms. It will be key for discovering new fundamental mechanisms in cell biology, with broad implications in environmental research, health and agriculture. Compared to second generation sequencing, third generation sequencing is able to produce fragments that cover significantly
larger regions of the molecule, up to several thousands of bases. This important
feature allows to overcome the main limitations of second generation sequencers and offersa real potential of disruption. Remarkably, this transition does not significantly affect the difficulty and costs at which sequence data can be obtained. One can even expect that third generation will further promote the easy access to sequencing technologies with the advent of low-cost and highly portable instruments, such as the MinION commercialized by Oxford Nanopore Technologies. In this project, we focus on transcriptome sequencing by nanoporetechnology. Transcriptome is the sequencing of expressed RNA in a population of cells. It is of great interest to understand what fraction of the genome is expressed and to characterize it, and serves as a basis for multiple downstream analyses, including gene prediction, gene expression regulation, variant calling, species identification. However, analyzing this data is computationally challenging due to a very high rate of sequencing errors on the one hand and the intrinsic complexity of transcriptomes on the other hand. So there is a pressing need
for models and algorithms that can accommodate this new kind of data and that are also scalable. In this perspective, we will develop innovative computational analysis methods for transcriptomes (RNA from a single organism), 16S ribosomal RNA and metatranscriptomes (RNA sampled from a community). For that, we will consider several settings, depending on whether a reference genome and/or supporting second generation data are available. This will give raise to a number of specialized algorithms in several primary analysis steps that complement one another : alignment, error correction, identification of gene structures, identification of variants. To achieve these goals, we will make use of state-of-the-art techniques in text algorithms and invent new ones : new models for seeds, alignment-free heuristics, compression, graph structures, text indexes. The project unites two expert groups in bioinformatics algorithms (Bonsai, CRIStAL in Lille and Erable, LBBE in Lyon), and two sequencing and analysis platforms that have been very active in the MinION Access Program (Genoscope and Institut Pasteur de Lille). Bonsai and Erable both have a long-standing experience in the design of algorithms and software high-throughput sequencing data analysis (Kissplice, CRAC, and sortmeRNA). Genoscope and Institut Pasteur de Lille will allow all partners of the project to have early access to the latest data with the MinION and the upcoming Promethion, as well as an expert view on these data. For example, Genoscope has recently developed NaS, a comprehensive
bioinformatics pipeline for error correction of nanopore data. All algorithms proposed
within the project will be made available to a broader community through the development of open-source user-friendly bioinformatics software, that will benefit from a fast dissemination through the national network France Genomique and high-level publications. In conjunction, the underlying components will be added to the GATB library, which will further increase the audience of this work. The generated sequencing data will also be made publicly availableand deposited in open archives, in order to serve as benchmarks for other research groups.2.

Mots clefs / Keywords :
Algorithmique, séquençage, bioinformatique