BoB

BoB - Inférence bayésienne à ressources limitées - données massives et modèles coûteux

Porteur : Rémi Bardenet, Chargé de Recherche CNRS CRIStAL

Équipe : SIGMA du Groupe Thématique : DatInG

Partenaire : CRIStAL

JCJC : jeunes chercheurs-jeunes chercheuses

Dates : 09/16 - 09/20

Résumé :

Les méthodes bayésiennes sont un ensemble d’algorithmes statistiques pour mettre à jour une connaissance scientifique à partir d’une expérience. Elles transforment données et modèles en décisions, en prenant en compute les incertitudes sur les modèles et leurs paramètres, ce qui les rend populaires parmi les biologistes, physiciens ou ingénieurs. Cependant, les méthodes bayésiennes sont basées sur 1) des accès répétés à l’ensemble des données obtenues dans l’expérience, et 2) des évaluations répétées du modèle qui décrit le processus observé. Les tendances actuelles à la collection massive de données et à l’établissement de modèles complexes posent donc deux questions majeures.

Les expériences, les observations et les simulations numériques génèrent aujourd’hui des pétaoctets de données, comme en physique des particules avec le LHC. Simultanément, la recherche appliquée est devenue très centrée sur les données, et nous avons besoin de nouveaux paradigmes d’acquisition, de traitement, de découverte, d’échange et d’analyse de données. Pour que le traitement statistique passe à l’échelle de ces ensembles massifs de données, les algorithmes doivent requérir peu d’itérations et/ou peu d’accès au données par itération.

Ce n’est pas seulement la taille des jeux de données qui augmente à grande vitesse. Les biologistes cellulaires, par exemple, ont plutôt peu de données mais dérivent des modèles composés de systèmes de dizaines d’équations différentielles non-linéaires, pour décrire des dynamiques complexes. Dans un tel cadre, évaluer la performance d’un jeu de paramètres du modèle requiert la résolution de tels systèmes, ce qui peut se compter en minutes sur un ordinateur récent. Les algorithmes statistiques basés sur des millions d’évaluations séquentielles d’un tel modèle sont donc inapplicables.

Dans ce projet, nous nous attaquons au compromis coût-précision des méthodes bayésiennes, pour obtenir des algorithmes d’inférence généraux qui passent à l’échelle avec le nombre d’observations du jeu de données et le nombre d’évaluations du modèle. À cet effet, nous proposons un ensemble d’objectifs avec des compromis risque-récompense panachés. En particulier, pour les expériences avec un nombre massif de mesures, nous développerons les méthodes existantes de Monte Carlo basées sur le sous-échantillonnage des données, tout en proposant un cadre nouveau basé sur la théorie de la décision, qui prendra en compte les contraintes d’accès aux données. Pour les modèles coûteux à évaluer, nous construisons un ambitieux programme de recherche autour des méthodes Monte Carlo à base de processus déterminantaux. À précision constante, ces processus ont le potentiel de diminuer le nombre d’évaluations d’un modèle par rapport aux méthodes Monte Carlo traditionnelles. En bref, en utilisant des méthodes innovantes comme les méthodes Monte Carlo à base de sous-échantillonnage et les processus déterminantaux, nous proposons dans ce projet de repousser les limites d’applicabilité de l’inférence bayésienne.

Abstract

Bayesian methods are a popular class of statistical algorithms for updating scientific beliefs. They turn data into decisions and models, taking into account uncertainty about models and their parameters. This makes Bayesian methods popular
among applied scientists such as biologists, physicists, or engineers. However, at the heart of Bayesian analysis lie 1) repeated sweeps over the full dataset considered, and 2) repeated evaluations of the model that describes the observed physical process. The current trends to large-scale data collection and complex models thus raises two main issues.

Experiments, observations, and numerical simulations in many areas of science nowadays generate terabytes of data, as does the LHC in particle physics for instance. Simultaneously, knowledge creation is becoming more and more datadriven,
which requires new paradigms addressing how data are captured, processed, discovered, exchanged, distributed, and analyzed. For statistical algorithms to scale up, reaching a given performance must require as few iterations and as little access to data as possible.

It is not only experimental measurements that are growing at a rapid pace. Cell biologists tend to have scarce data but large-scale models of tens of nonlinear differential equations to describe complex dynamics. In such settings, evaluating
the model once requires numerically solving a large system of differential equations, which may take minutes for some tens of differential equations on today’s hardware. Iterative statistical processing that requires a million sequential runs of the model is thus out of the question.
In this project, we tackle the fundamental cost-accuracy trade-off for Bayesian methods, in order to produce generic inference algorithms that scale favourably with the number of measurements in an experiment and the number of runs of a statistical model. We propose a collection of objectives with different risk-reward trade-offs to tackle these two goals. In particular, for experiments with large numbers of measurements, we further develop existing subsampling-based Monte Carlo methods, while developing a novel decision theory framework that includes data constraints. For expensive models, we build an ambitious programme around Monte Carlo methods that leverage determinantal processes, a rich class of probabilistic tools that lead to accurate inference with limited model evaluations. In short, using innovative techniques such as subsampling-based Monte Carlo and determinantal point processes, we propose in this project to push the boundaries of the applicability of Bayesian inference.

Mots clefs/Keywords : Bayesian inference, machine learning, big data, determinantal point processes.