INSSANE

INSSANE - Modélisation Structurale d’ARN Intégrant des Données de Séquençage

Coordinateur : Sebastian Will (Laboratoire d’Informatique de l’École Polytechnique)

Partenaire : Camille Marchet CNRS CRIStAL

Équipe : Bonsai du Groupe Thématique : MSV.

Dates : 10/21 - 09/25

Résumé :

La structure des molécules d’ARN et ses complexes sont essentiels pour comprendre leur biologie. Leur centralité est frappante chez les virus à ARN simple-brin (Influenza, HIV, Chikungunya, SARS-CoV2...), où l’ARN constitue le matériel génomique. De grande taille, ces ARN sortent du champs d’application des méthodes in silico, ainsi que des approches structurales expérimentales à haute-résolution.
Au sein du projet INSSANE, nous développerons des protocoles expérimentaux intégrés, couplés à des méthodes bioinformatique efficaces pour la modélisation structurale des grands ARN. Nous sonderons et prédirons l’architecture d’ARN génomiques de virus d’intérêt bio-médical. Le champs d’application de nos méthodes bioinformatique ne se limitera pas aux virus, mais devrait s’appliquer à d’autres grands ARN (lncRNAs, Introns). Nous développerons SHAPE-Cut, un nouveau protocole facilitant le sondage chimique des grands ARN. Il mesurera l’accessibilité au solvant au sein des ARN, en combinant chimie novatrice et séquençage de 3ième génération. Comparé aux protocoles de sondages actuels, SHAPE-Cut devrait limiter les biais, autoriser une mise en œuvre simplifiée, et produire des informations structurales plus précises, grâce à des traitement de données et méthodes bioinformatiques dédiées. Nous combinerons en outre ces données de sondage, indiquant une accessibilité locale, avec des donnés de réticulation (crosslinking), suggérant des interactions longues-distances. Nous appliquerons un protocole récent de réticulation sur des ARN choisis, et en croiserons les résultats avec une recherche, à échelle génomique, des interactions ARN-ARN stables par des techniques d’indexation à base de graines. Enfin, nous concevrons une méthode de prédiction structurale intégrative, combinant réactivité, interactions longues-distances, données évolutives et stabilité thermodynamique. Ses résultats feront l’objet de nouvelles visualisations multi-échelle, et faciliterons le dialogue interdisciplinaire.
Des verrous algorithmiques devront être levés pour améliorer le traitement des données de séquençage, centrales aux protocoles modernes de sondage et réticulation. L’information structurale y est en effet révélée indirectement, à travers des modifications (mutations, stop) observables en séquence. Cependant, l’étape cruciale de mapping des données primaires de sondage a été relativement négligée, ce malgré des difficultés identifiées (chimères, erreurs informatives), à l’origine de biais d’analyse. Nous proposerons des méthodes de mapping adaptées à nos protocoles, basées sur des structures de données et d’indexation pour tirer un parti optimal des données. A l’inverse, certaines ambiguïtés de mapping pourront être levés à l’aune de prédictions structurales. Nous viserons aussi une déconvolution du signal issue d’isoformes et sous-génomes viraux. Notre méthode intégrative finale sera formulée comme un problème de stable pondéré, dans un graphe de conflit comprenant structures alternatives locales et interactions longue distance. Il sera abordé via une algorithmique paramétrée (FPT) par la largeur arborescente, et produira un ou plusieurs modèles structuraux stables et compatibles avec les données évolutives/expérimentales.
En intégrant des spécialistes en bioinformatique des ARN, analyse de séquence, biochimie et chimie organique, notre consortium possède un positionnement unique pour aborder la problématique du sondage d’ARN. La réalisation de ce projet bénéficiera de la mise en commun d’expertises en analyse de données de séquençage et prédiction combinatoire de structures d’ARN, champs traditionnellement disjoints en bioinformatique. Ses synergies s’appuieront sur des collaborations existantes, soutenant un dialogue interdisciplinaire fructueux entre des partenaires portant des regards complémentaires sur l’ARN en tant qu’objet d’étude.

Abstract

The structure of RNA molecules and their complexes are crucial for understanding biology. Notorious examples of large RNAs include the genomes of RNA viruses (Influenza, HIV, Chikungunya, SARS-CoV2...), whose lengths exceed the current capabilities of predictive computational methods, as well as high-res experimental structural techniques.
In the INSSANE project, we will develop integrated experimental protocols, together with efficient computational methods for the structural modeling of large RNAs. We will accurately probe and predict the genomic RNA architectures of, bio-medically relevant, viruses. The scope of applicability of our methodologies in bioinformatics will extend beyond viruses, and could be used to model the structure of other large RNAs (lncRNAS, Introns). Towards that goal, we will introduce a novel protocol, named SHAPE-Cut, to streamline the probing of large RNAs. SHAPE-Cut will measure position-specific solvent accessibility by combining novel chemistry and long-read sequencing. In comparison to existing protocols, we expect SHAPE-Cut to avoid typical biases, be easier to implement, and provide increased accuracy, when coupled with specific data analyses and computational methods. We will combine the complementary data of crosslinking and probing experiments : the former reveals long-range interactions, while the latter, through accessibility profiles, has been shown to greatly improve the prediction of local structures. We will implement a recent crosslinking protocol and use its data in index-based genome-wide search of thermodynamically stable RNA-RNA interactions. Then, we devise an integrative structure prediction method that combines SHAPE reactivity, long-range interactions, homology, and thermodynamic stability. Finally, a novel visualization tool will represent genome-scale RNAs and streamline the interdisciplinary dialogue.
Algorithmic hurdles will be overcome to improve the processing of sequencing data produced by RNA structure-targeting experiments. All modern RNA probing protocols are based on sequencing technologies, and reveal structural information indirectly, through an alteration that is observable at the RNA sequence level (mutations, stops/cut). However, the crucial mapping of primary sequencing data has received relatively scarce attention in the context of probing techniques, despite specific challenges (chimeric reads, informative errors/stops) having been identified at the root of biases and technical artifacts. We will tailor mapping to our protocols, and develop data structures and indexing techniques to fully exploit sequencing data to its fullest extent. We will also inform mapping by predicted accessibility, e.g. to disambiguate the mapping of erroneous (but probably informative) reads. Beyond increasing mappability, we will deconvolute isoforms/subgenomes, which are known to occur in viral genomes. Our final integrative structure modeling method will consider evolutionary information, and will be formulated as a Maximum-Independent-Set (MIS) graph problem for a conflict graph including both alternative local structure and long-range interactions. We will implement a Fixed Parameter Tractable algorithm based on the treewidth to produce a model with maximal support and thermodynamic stability.
By including experts in bioinformatics of RNA structure, sequence analysis, biochemistry, and organic chemistry, our consortium is uniquely positioned to address the timely challenges tackled in the project. Its implementation requires a combination of expertise from traditionally distinct areas of bioinformatics, namely combinatorial structure prediction and high-throughput sequencing analysis. Its synergies will build on existing pairwise collaborations and will streamline the communication between partners representing complementary perspectives on RNA as an object of study.