PISCES

PISCES - Méthodes d’échantillonnage d’importance adaptatives pour l’inférence Bayésienne dans les systèmes complexes

Coordinateur : Victor Elvira, Maître de conférences Institut Mines-Telecom

Équipe : SIGMA du Groupe Thématique DaTinG

Partenaire : CRIStAL

JCJC - Jeunes chercheuses et jeunes chercheurs

Recherche fondamentale

Dates : 12/17 - 12/21

Résumé :

De nombreux problèmes scientifiques sont décrits par des modèles statistiques qui relient les données observées à certains paramètres inobservables. Ce type de modèles statistiques peut être trouvé dans une large gamme d’applications telles que la biologie, la médecine, l’économétrie, l’informatique, l’intelligence artificielle, l’astronomie, la physique, la chimie, les communications, les sciences de la terre, entre autres. Dans l’inférence Bayésienne, l’estimation probabiliste des paramètres est représentée par la distribution a posteriori qui permet de modéliser l’incertitude avec les données ainsi que la connaissance a priori des paramètres. L’inférence Bayésienne a été appliquée avec succès dans toutes les disciplines susmentionnées, et il existe clairement une tendance à une adoption plus large. Cependant, dans les modèles réalistes, cette distribution est inconnue et doit être approchée. Les méthodes de Monte Carlo sont des outils de calcul qui permettent d’approcher des distributions grâce à la génération d’échantillons aléatoires. Le problème consiste à résoudre des problèmes d’estimation très difficiles en tirant des échantillons à partir de certaines distributions simples et ensuite depuis l’approximation fournie de faire les calculs appropriés pour résoudre des problèmes d’estimation, de filtrage, de prévision, etc. L’Échantillonnage d’Importance (IS), est une méthode de Monte Carlo qui a montré une performance satisfaisante dans de nombreux problèmes d’inférence Bayésienne. Les méthodes IS jouissent de propriétés théoriques solides. Cependant, leur utilisation a été principalement limité aux espaces de dimension basse. Les performances de ces méthodes sont en effet loin d’être satisfaisantes lorsque les distributions d’importance pour le tirage des échantillons ne sont pas correctement sélectionnées. De plus, ce problème s’aggrave à mesure que la dimension de l’espace des paramètres augmente. Dans ce projet, nous rechercherons de nouvelles méthodes adaptées basées sur IS pour l’inférence probabiliste dans des systèmes multidimensionnels non linéaires complexes. Nous développerons la méthodologie adaptative IS (AIS) afin qu’elle puisse être appliquée avec satisfaction à des systèmes complexes réalistes tout en ayant la capacité d’ajuster automatiquement la complexité requise et de garantir les propriétés théoriques que nous analyserons également. Nous testerons les nouveaux algorithmes AIS dans trois applications concrètes avec données réelles : les réseaux de capteurs sans fil, la biologie cellulaire et les prévisions de la demande dans la chaîne d’approvisionnement.

Abstract

Many problems in different scientific domains can be described through statistical models that relate observed data to a set of hidden parameters of interest. This kind of statistical models can be found in a broad range of applications such as biology, medicine, econometrics, computer science, artificial intelligence, astronomy, physics, chemistry, communications, earth science, among many others. In the Bayesian framework, the probabilistic estimation of the unknowns is represented by the posterior distribution of these parameters. The posterior allows to deal with the uncertainty of the estimation in a systematic way, compacting the data with the available prior knowledge of the parameters. Bayesian inference has been successfully applied in all the aforementioned disciplines, and there is clear tendency for a wider adoption. However, in most of the realistic models, the posterior is intractable and must be approximated. Monte Carlo methods are computational tools that allow for approximating intractable posteriors by drawing random samples. The problem there is to solve very challenging inferential problems by drawing samples from certain simple distributions and based on them and appropriate computations, conduct estimation, filtering, prediction, model assessment, or model selection, among other statistical tasks. Importance Sampling (IS) is a Monte Carlo methodology that has shown a satisfactory performance in many problems of Bayesian inference. Compared to other Monte Carlo methods, IS methods have sound theoretical properties. However, its use has been mostly restricted to low-dimensional spaces. The reason is that the performance of the IS methods is poor when the proposal distributions used for drawing the samples are not adequately selected. This problem worsens as the dimensionality is increased, due to the so-called curse of dimensionality. In this project, we will research novel adaptive IS-based methods for Bayesian inference in complex systems. We will push the adaptive IS (AIS) methodology so it can be applied to intricate realistic complex systems, achieving a high performance in non-linear high-dimensional models, adjusting automatically the required computational complexity, and still attaining solid theoretical guarantees that we will also analyze. We will test the novel AIS algorithms in three complicated real-world applications with real data in the context of wireless sensor networks, cell biology, and demand forecast in the supply chain. AIS is a flexible and promising methodology for Bayesian inference. By identifying and addressing its current limitations, we will enable its widespread use in complex problems.