SHERLOCK

SHERLOCK - Inférence rapide et contrôle de l’incertitude : applications aux observations astrophysiques

Coordinateur : Pierre Chainais Centrale Lille CRIStAL

Équipe : SIGMA du Groupe Thématique : DatIng

Dates : 09/20 - 02/25

Résumé :

SHERLOCK est un projet équilibré entre un projet de recherche et un projet de formation au niveau Master de recherche. Son originalité tient à 3 motivations essentielles : un programme de recherche prometteur en IA avec des applications interdisciplinaires en astrophysique et en chimie, un programme ambitieux de formation à la recherche de haut niveau, et un fort couplage entre recherche et formation à la recherche par la recherche.

SHERLOCK-recherche : L’objectif principal de SHERLOCK est d’imaginer de nouvelles méthodes d’inférence bayésienne non seulement rapides mais qui permettent aussi de quantifier l’incertitude des prédictions, y-compris dans des situations où on ne dispose d’aucune vérité terrain. L’approche proposée que nous avons récemment initiée emprunte des idées aux méthodes de Monte-Carlo par chaînes de Markov (MCMC) et à l’optimisation, ainsi qu’à l’apprentissage statistique. D’un côté, la quantification des incertitudes implique l’exploration du voisinage de la solution proposée : c’est précisément ce que les méthodes MCMC font très bien. D’un autre côté, les méthodes MCMC souffrent de limitations lorsqu’il s’agit de travailler en grande dimension ou lorsqu’une vraisemblance coûteuse doit être évaluée un grand nombre de fois. Dans ce cas, les méthodes d’optimisation peuvent apporter une solution, qui reste un estimateur ponctuel le plus souvent. Ce projet vise à faire collaborer méthodes MCMC et optimisation grâce à des méthodes d’échantillonnage hybrides et à l’augmentation de variables (splitting) en particulier. Nous sommes convaincus qu’un compromis est possible et souhaitons explorer cette direction. Un autre problème essentiel est le passage à l’échelle qui est souvent abordé par une réduction de dimension préalable ou une compression des données. Dans cet objectif, nous allons étudier le potentiel des processus ponctuels déterminantaux (DPP). Nos contributions méthodologiques concerneront l’apprentissage statistique et les problèmes inverses en traitement du signal. Nous traiterons des applications en astrophysique sur des données issues du consortium Orion-B d’une part, et du consortium Ligo-Virgo sur les ondes gravitationnelles d’autre part. De façon plus prospective, nous considèrerons aussi des problèmes liés à la chimie de la catalyse en collaboration avec l’equipex Realcat.

SHERLOCK-formation : Le parcours « Décision & Analyse de Données » qui devient « Science des données & intelligence artificielle » est sous ma responsabilité depuis que je l’ai créé en 2012. Ce programme de niveau M2 favorise l’ouverture vers la recherche. De façon remarquable, environ 20% des 24 diplômés poursuivent en thèse chaque année : ces profils sont très demandés (derniers recrutements à New-York University, Mc Gill/FAIR Montreal). En 2019, je serai responsable du nouveau Master Data Science commun à l’Université de Lille (et donc Polytech’Lille), Centrale Lille et l’IMT Lille-Douai. Je porte ce projet depuis 2 ans maintenant. Il a vocation à faire partie de la Graduate School de Lille. SHERLOCK apporterait un soutien inestimable à ces formations qui concernent 72 étudiants chaque année en permettant d’inviter des professeurs étrangers et en permettant de donner des bourses de mobilités entrantes pour d’excellents étudiants étrangers ainsi que des bourses de mobilités sortantes pour nos étudiants partant en stages à l’étranger.

Abstract

SHERLOCK is targeted as a balanced research and training project. Its originality lies in 3 main motivations : a promising research project in AI with interdisciplinary applications in astrophysics and chemistry, an ambitious training program connected to high-level research-oriented master programs, and a strong coupling research & training in AI.

SHERLOCK-research – The main purpose of SHERLOCK is to imagine new fast Bayesian inference methods that permit to quantify the uncertainty of their predictions, even in situations with no available ground truth. The proposed approach that we have recently initiated borrows ideas from Markov chain Monte Carlo (MCMC) methods combined with optimization and machine learning algorithms. On one hand, the quantification of uncertainty implies the exploration of the neighborhood of the proposed solution : this is what MCMC methods are good at. On the other hand, MCMC methods suffer from their limited ability to deal with data in large dimensions (tall data) or when an expensive likelihood must be evaluated a large number of times (big data). Then optimization methods may provide a solution that remains pointwise however. This project aims at bridging the gap between optimization and MCMC methods, for instance thanks to hybrid sampling methods and variable splitting. We are convinced that a compromise is possible and we want to explore this direction. Another crucial issue is scalability to which one answer is dimension reduction or compression. To this aim, we will investigate the potential of determinantal point processes (DPP). Our methodological contributions will concern both inverse problems and machine learning. We will consider applications to astrophysical data sets from the Orion-B consortium and gravitational waves (existing interdisciplinary collaboration). On a more prospective ground, we may consider problems in catalysis chemistry in collaboration with the Realcat equipex.

SHERLOCK-teaching & training - The “Data Analysis & Decision making” program that will become “Data science & artificial intelligence” in the last year program of Centrale Lille is under my supervision. This master level program favors a good opening to research. It is noticeable that about 5 students/year (close to 20%) on average pursue their studies in a PhD program : such profiles are highly demanded (e.g. last recruitments were in New-York University and Mc Gill/Facebook Research Montreal). In 2019, the new Master of Data Science will open in Lille, with the remarkable unified support of the University of Lille, Centrale Lille and IMT Lille-Douai. I have been leading this project over the last 2 years and will be responsible for this Master at his launch in September 2019. It is aimed at joining the emerging Graduate School of the University Lille-North Europe. Remarkably, it involves both the University of Lille, and therefore Polytech’Lille, and the engineering schools Centrale Lille, IMT Lille-Douai. SHERLOCK would impact 72 students every year by supporting invited professors and mobility grants for inward foreign students as well as for intership in foreign labs.