REPUBLIC

REPUBLIC - Vers l’IA responsable avec l’apprentissage par renforcement sous contraintes

Coordinateur : Debabrota Basu INRIA de l’Université de Lille - CRIStAL

Équipe : SCOOL du Groupe Thématique : DatInG.

Dates : 10/22 - 01/27

Résumé :

Le développement d’une IA responsable requiert l’intégration de 3 éléments fondamentaux : la robustesse, le respect de la vie privée (privacy) et l’absence de biais (fairness). Dans le projet REPUBLIC, nous proposons d’étudier ces 3 aspects dans le cadre de l’apprentissage par renforcement (AR) sous contraintes. Le programme de recherche comprend 3 phases.

  • 1) Nous proposerons un cadre unifié pour ces 3 notions telles qu’elles sont décrites dans la littérature. Nous les formaliserons comme des problèmes d’AR sous contraintes. Dans ce cadre unifié, nous formulerons ce problème comme un jeu à deux joueurs. Dans ce jeu, l’un des joueurs essaie de violer les contraintes tandis que le second essaie de maximiser son utilité.
  • 2) Nous réaliserons une étude de l’AR sous différents types de contraintes : statiques ou dynamiques, linéaires ou non, déterministes ou non. L’analyse des contextes les plus simples de l’AR sous contraintes linéaires et dynamiques montre les limites de techniques d’optimisme pour qu’elles restent efficaces. Un équilibre entre l’optimisme de l’exploration et le pessimisme dû aux contraintes doit être trouvé. Nous étudierons les limites fondamentales de l’AR sous les différents types de contraintes. Ensuite, nous concevrons des algorithmes d’AR optimaux pour ces différents types de contraintes, optimaux d’un point de vue statistique et d’un point de vue calcul.
  • 3) Nous appliquerons ces travaux à deux applications réelles : la conception de médicaments et la prise de décision en situation d’aléas climatiques. Le premier problème nécessite le déploiement d’algorithmes distribués proposés dans les phases précédentes du projet. Le second problème nécessite de faire passer à l’échelle ces déploiements, la prise en compte de prédicteurs imparfait, la quantification de l’incertitude due au non déterminisme qui est inhérent à la dynamique du système et à l’imperfection des modèles.

Abstract

Developing responsible AI asks for effectively incorporating three fundamental aspects : robustness, privacy, and unbiasedness (fairness).
In the REPUBLIC project, we propose to investigate these aspects for Reinforcement Learning (RL) with the framework of RL under constraints.
The research roadmap has three phases that transits through the literature on responsible RL, a unified fundamental framework, and real-life applications.

  • The first phase aims to unify the eclectic definitions of robustness, privacy, and unbiasedness available in literature into three unified frameworks of RL under constraints.
    This unification contemplates to invoke a two-player constraint breaking and utility maximising game framework of achieving optimal robust, private, and unbiased performance in RL.
  • The next phase is developing the fundamental study of RL under static/dynamic, linear/non-linear, and deterministic/probabilistic constraints.
    The present analysis of the simplest settings of RL under dynamic, linear constraints shows limitations of the optimistic techniques for efficiency-driven RL, and asks for careful trade-off of optimism and constraint-dependent pessimism.
    The goal of this research is to systematically understand fundamental limits of RL under dynamic, non-linear, and probabilistic constraints, which would be invoked in the first phase of this project.
    Following this study, we aim to derive statistical and computational machineries to design optimal algorithms for RL under different type of constraints.
  • The final phase is to apply the generated knowledge and RL algorithms to real-life applications, such as collaborative drug design and decision making with imperfect climate models.
    The first problem requires distributive deployment of algorithms proposed in the first two phases.
    The second problem asks for scaling-up the deployments, dealing with imperfect predictors, and quantifying high uncertainty due to randomness of the inherent dynamics and model imperfection.