full-RNA

full-RNA - Fouille non biaisée dans les banques de données RNA-seq massives

Coordinateur : Daniel GAUTHERET (Centre national de la recherche scientifique)
Partenaire : Mikael Salson Université de Lille CRIStAL

Équipe : Bonsai du Groupe Thématique : MSV.

Dates : 10/22 - 02/26

Résumé :

Le séquençage d’ARN à haut débit (RNA-seq) est un outil unique pour la découverte de biomarqueurs médicaux et de cibles pharmaceutiques. Cependant, alors que près d’un million de banques RNA-seq humaines sont publiquement disponibles, ce trésor d’information médicale ne peut réaliser son plein potentiel car il est impossible d’interroger directement cette ressource pour mesurer l’expression d’un ARN d’intérêt. Plusieurs projets bioinformatiques ont abordé cette question, mais ils reposent sur des ARN de référence normaux qui ne capturent pas toute la diversité des transcrits pathologiques. De nouvelles structures de données sans référence utilisant des k-mers permettent d’interroger de grandes bases de séquences, mais elles n’autorisent pas les requêtes quantitatives.
Notre objectif ici est de développer de nouvelles structures d’indexation capables de gérer des requêtes quantitatives sans référence dans des dizaines de milliers de banques RNA-seq tout en optimisant la consommation disque et mémoire. A cette fin, nous nous appuierons sur notre système d’indexation Reindeer. Nous apporterons des innovations importante permettant de réduire l’empreinte disque et mémoire de l’outil, et nous l’étendrons aux séquences de type "long-read". De plus, nous implémenterons dans la nouvelle version de Reindeer des outils statistiques permettant de cribler les index pour y découvrir des ARN significativement associés à des caractères qualitatifs ou quantitatifs liés au phénotype des échantillons. Ceci nous permettra de découvrir des ARN associés à des caractéristiques cliniques ou cellulaires, et in fine produire de nouveaux modèles de diagnostic/pronostic. Nous créerons deux premiers index d’environ 10.000 échantillons à partir des bases de données "Short Read Archive" et GTEX. A l’aide de ces index, nous proposons une série d’applications visant à mieux comprendre les déterminants du vieillissement et de la senescence cellulaire, deux processus liés et impliqués dans un grand nombre de pathologies. Nous générerons les premiers modèles modèles prédictifs de vieillissement et senescence utilisant des ARN non répertoriés tels que les rétrotransposons, les lncRNA et les variants d’épissage. L’architecture distribuée de notre système, combinée à des serveurs web permettant des interrogations publiques permettra une large communauté d’évaluer d’évaluer nos outils, ouvrant la voie à une large gamme d’applications. Notre consortium est composé de bioinformaticiens de quatre institutions, dotés d’une solide expérience en informatique, structure de données de texte, analyse de séquences ARN à haut débit et transcriptomique en santé.

Abstract

High-throughput RNA sequencing (RNA-seq) is a unique tool for the discovery of medical biomarkers and drug targets. However, while nearly one million human RNA-seq libraries are publicly available, this treasure trove of medical information cannot realize its full potential because it is impossible to directly query this resource to measure the expression of an RNA of interest. Several bioinformatics projects have addressed this issue, but they rely on normal reference RNAs that do not capture the full diversity of pathological transcripts. New reference-free data structures using k-mers allow querying of large sequence databases, but they do not allow quantitative queries.
Our goal here is to develop new indexing structures capable of handling reference-free quantitative queries in tens of thousands of RNA-seq libraries while optimizing disk and memory consumption. To this aim, we will build on our Reindeer indexing system. We will bring important innovations to reduce the disk and memory footprint of the tool, and we will extend it to long-read sequences. In addition, we will implement in the new version of Reindeer statistical tools to screen the indexes for RNAs significantly associated with qualitative or quantitative traits related to the phenotype of the samples. This will allow us to discover RNAs associated with clinical or cellular characteristics, and ultimately produce new diagnostic/prognostic models. We will first create two indexes of about 10,000 samples from the Short Read Archive and GTEX databases. Using these indexes, we propose a series of applications aiming to better understand the determinants of aging and cellular senescence, two related processes involved in a large number of pathologies. We will generate the first predictive models of aging and senescence using unlisted RNAs such as retrotransposons, lncRNAs and novel splice variants. The distributed architecture of our system, combined with web servers allowing public queries will allow a large community to evaluate our tools, opening the way to a wide range of applications. Our consortium is composed of bioinformaticians from four institutions, with strong experience in informatics, string data structure, high-throughput RNA sequence analysis and health transcriptomics.