Find-RNA

Find-RNA - Analyse en pleine longueur et en profondeur des ARNs

Coordinateur : Camille Marchet CNRS - CRIStAL

Équipe : Bonsai du Groupe Thématique : MSV.

Dates : 10/23 - 09/27

Résumé :

L’ARN est une molécule fondamentale du vivant, convoyeur de messages pour la production et la régulation des protéines. Son étude révèle les fonctions cellulaires, ainsi que des questions fondamentales sur les acides nucléiques, leurs propriétés et leur évolution. Grâce au séquençage, l’ARN est accessible sous forme de séquences numériques appelées "lectures" et étudiées à l’aide notamment d’algorithmes de texte et de graphes. Les technologies de lectures courtes permettent d’obtenir de petits extraits d’ARN. Un jeu de données de lectures courtes peut montrer en profondeur tous les types d’ARN trouvés à un moment donné dans un tissu ou un environnement, et il permet d’accéder à des ARN rares. Cependant, ces technologies peuvent produire des quantités de données extrêmement importantes, difficilement conciliables avec nos moyens d’analyses. Les nouvelles technologies de lectures longues proposent des moyens différents d’accéder à l’ARN, en couvrant une plus grande partie des molécules, cela au prix d’un bruit plus important. Plus récentes, elles bénéficient de moins de développements méthodologiques.

Nous ne connaissons pas le matériel génétique de la majorité des espèces sur Terre. Or la plupart des solutions informatiques fonctionnent avec des connaissances préalables, et sont donc bien adaptées pour des espèces comme l’Homme ou la souris. Ce n’est pas le cas pour les espèces ou groupes d’espèces et les symbioses qui ne peuvent pas être cultivées par exemple. L’objectif principal de Find-RNA est de fournir de nouvelles solutions pour permettre l’analyse de l’ARN de ces organismes sans références. Notre objectif principal est de développer des méthodes efficaces et passant à l’échelle pour créer des catalogues de lectures qui vont permettre l’identification des ARN. Nous voulons promouvoir l’adoption du séquençage à lecture longue pour les ARN en les combinant à des lectures courtes dans le développement de ces catalogues. Cela implique le développement de méthodes permettant de réduire le stockage des ensembles de données, l’amélioration des lectures longues, ainsi que de nouvelles possibilités d’interrogations de ces catalogues.

Find-RNA se compose de trois volets scientifiques et d’une section de gestion et de management. Dans un premier volet, l’objectif est de créer et de tester des méthodes permettant de stocker et d’organiser des ensembles de sous-séquences importantes dans l’étude de l’ARN avec lectures courtes. L’objectif est de faire en sorte que ces ensembles utilisent le moins d’espace possible tout en restant efficaces, notamment en utilisant une structure de données nouvelle et inexplorée. Le deuxième volet se concentre sur la création de méthodes capables de mettre à jour et de rechercher rapidement dans de vastes catalogues de jeux de données d’ARN. L’objectif est de créer une structure de données "dictionnaire" spécialisée pour l’ARN, qui permet d’ajouter facilement de nouvelles séquences. Cette structure est le principal jalon du projet. Le troisième volet s’appuie sur les parties précédentes, et travaille sur l’amélioration des longues lectures en éliminant le bruit. L’objectif est ensuite de créer une structure de "dictionnaire" qui peut traiter à la fois les séquences courtes et longues, ce qui est également une contribution majeure. Enfin, les programmes seront testés sur un cas d’application réel : l’étude de la symbiose du plancton. Outre les publications scientifiques en accès libre, le projet fournira plusieurs logiciels aux bioinformaticiens et aux biologistes qui étudient les organismes via leur ARN séquencé. Il ouvrira l’accès à des instances peu étudiées, notamment en écologie ou en biologie de la conservation. En explorant des structures de données provenant de domaines éloignés, il jettera également des ponts entre domaines de l’informatique. Enfin, il intégrera de manière originale les longues lectures, afin de prendre le train en marche des opportunités offertes par cette technologie.

Abstract

RNA is a fundamental molecule of the living, the seat of the genetic material of some viruses and very frequently the conveyer of messages in the cell, for the production and regulation of proteins. Studying RNA reveals functional aspects in cells, as well as fundamental questions about nucleic acids, their properties and evolution. Through sequencing, these molecules are accessed as digital sequences called reads, and studied using notably text and graph algorithms. Short-reads technologies provide snapshots of small parts of RNA molecules. A short-read dataset can show in depth all kinds of RNAs found at a time in a tissue or an environment, and they allow access to rare RNAs. However these technologies can yield extremely large amounts of data. Our computational power and methodology do not evolve at the same pace, making the data exponentially less searchable and analyzable. Novel long-read technologies propose renewed ways to access RNA, by covering a larger part of the molecules at the expense of more noise. Being more recent, they benefit from less methodological developments. We do not know the genetic material of a majority of species on Earth. While most computational solutions work with prior knowledge, and are therefore well adapted for species like the human or the mouse, a large part of the living remains more difficult to reach despite the advances of sequencing techniques. It is even more pronounced for species or groups of species and symbiosis that cannot be cultivated. Find-RNA’s main goal is to provide new solutions to allow RNA analysis for these organisms. Our main objective is to develop efficient and scalable methods to create read catalogs that will enable RNA identification. We want to promote the adoption of long-read sequencing for RNAs by combining them with short reads in the development of these catalogs. This involves the development of methods to reduce the storage of datasets, the improvement of long reads, as well as new possibilities for querying these catalogs. Find-RNA has three scientific work packages and a management work package. In the first work package, the goal is to create and test methods that can store and organize sets of small sequences extracted from short reads. These short sequences are in practice the bread and butter of multiple computational techniques for DNA and RNA. The aim is to make these sets use as little space as possible while still being efficient. One important milestone of this work is to reveal the inner structure of the short sequences sets, using a new and unexplored data-structure. The second work package focuses on creating methods that can quickly update and search through large catalogs of RNA datasets. The aim is to make a "dictionary" data structure specialized for RNA, that can add new sequences easily. This structure is the main milestone of the project. The third work package builds on the previous parts, and works on improving long reads accuracy by removing noise. The goal is to create a new “dictionary” structure that can handle both short and long sequences, which is also a major contribution of Find-RNA. Finally, the programs will be tested on a real-life problem application case : studying the symbiosis of plankton. In addition to open access scientific publications, the project will deliver several pieces of software for bioinformaticians and biologists who study organisms using their sequenced RNA. It will open access to under-studied instances, in particular in ecology or conservation biology. By exploring data structures from remote fields, it will also build bridges in computer science. Finally, it will integrate long reads in an original fashion, in order to get on the bandwagon of the opportunities offered by this technology.