CausalXRL

CausalXRL - Explications causales dans l’apprentissage par renforcement

Coordinateur : Eleni Vasilaki, Professor

Partenaire : Philippe Preux Université de Lille CRIStAL

Équipe : SCOOL du Groupe Thématique : DatinG.

Dates : 01/21 - 03/24

Résumé :

Les systèmes d’apprentissage par renforcement profond approchent ou dépassent les performances humaines dans des domaines spécifiques, des jeux à l’aide à la décision en passant par le contrôle continu, bien que dans des environnements non critiques. La plupart de ces systèmes nécessitent une exploration aléatoire et une exploitation de l’environnement basée sur l’état-action-valeur. Cependant, dans des domaines importants de la vie réelle, comme l’aide à la décision médicale ou la réadaptation des patients, chaque décision ou action doit être pleinement justifiée et certainement pas aléatoire.

Nous proposons de développer des réseaux neuronaux qui apprennent des modèles causaux de l’environnement reliant l’action à l’effet, en utilisant dans un premier temps des données hors ligne. Les modèles seront ensuite interfacés avec des réseaux d’apprentissage par renforcement et d’aide à la décision, de sorte que chaque action entreprise en ligne puisse être expliquée ou justifiée sur la base de son effet escompté. Le modèle causal peut ensuite être affiné de manière itérative, ce qui permet de mieux prévoir les effets en cascade futurs de toute chaîne d’action. Le système, appelé par la suite CausalXRL, ne proposera que des actions qui peuvent être justifiées sur la base de leurs effets bénéfiques. Lorsque les avantages immédiats sont incertains, le système propose des actions exploratoires qui génèrent les avantages futurs les plus probables. CausalXRL aide ainsi l’utilisateur à choisir des actions basées sur des résultats spécifiques attendus, plutôt que sur les prescriptions d’une boîte noire.

Nous validerons CausalXRL sur des ensembles de données hors ligne d’environnements réalistes accessibles au public, par exemple des ensembles de données de soins intensifs hospitaliers [MIMIC-III, eICU]. En outre, nous appliquerons CausalXRL à la neuroréhabilitation post-AVC en boucle fermée par stimulation cérébrale non invasive. Nous adapterons également CausalXRL à des réseaux de neurones à pointes bio-plausibles, qui sont mécaniquement proches des systèmes modélisés, améliorant ainsi l’explicabilité, et utiles pour la mise en œuvre sur des dispositifs neuromorphiques de faible puissance pour l’aide à la décision portable et la rééducation.

Nous sommes une équipe interdisciplinaire, composée de chercheurs en début de carrière et de chercheurs confirmés. Tout d’abord, grâce à l’expertise de Moritz Grosse-Wentrup en inférence causale et d’Aditya Gilra en apprentissage de modèles dynamiques, nous développerons la théorie et les implémentations de réseaux neuronaux qui apprennent des modèles causaux de l’environnement à partir de données hors ligne. De plus, grâce à l’expertise de Philippe Preux en apprentissage par renforcement et en prise de décision explicable, et à celle d’Eleni Vasilaki en RL de type cérébral et en représentations éparses, nous interfacerons ces modèles avec des systèmes de prise de décision par apprentissage par renforcement, en les testant dans des environnements virtuels simples. Enfin, le modèle CausalXRL validé sera appliqué à la stimulation cérébrale en boucle fermée, telle qu’elle a été établie dans le laboratoire de Moritz Grosse-Wentrup.

Abstract

Deep reinforcement learning systems are approaching or surpassing human-level performance in specific domains, from games to decision support to continuous control, albeit in non-critical environments. Most of these systems require random exploration and state-action-value-based exploitation of the environment. However, in important real-life domains, like medical decision support or patient rehabilitation, every decision or action must be fully justified and certainly not random.

We propose to develop neural networks that learn causal models of the environment relating action to effect, initially using offline data. The models will then be interfaced with reinforcement learning and decision support networks, so that every action taken online can be explained or justified based on its expected effect. The causal model can then be refined iteratively, enabling to better predict future cascading effects of any action chain. The system, subsequently termed CausalXRL, will only propose actions that can be justified on the basis of beneficial effects. When the immediate benefit is uncertain, the system will propose explorative actions that generate most-probable future benefit. CausalXRL thus supports the user in choosing actions based on specific expected outcomes, rather than as prescribed by a black box.

We will validate CausalXRL on publicly available offline datasets of realistic environments, e.g., hospital intensive care datasets [MIMIC-III, eICU]. Further, we will apply CausalXRL to closed-loop post-stroke neuro-rehabilitation via non-invasive brain stimulation. We will also adapt CausalXRL to bio-plausible spiking neural networks, that are mechanistically close to the systems being modelled, thus enhancing explainability, and useful for implementation on low-power neuromorphic devices for portable decision support and rehabilitation.

We are an interdisciplinary team, involving early-career and established researchers. First, using the expertise of Moritz Grosse-Wentrup in causal inference and Aditya Gilra in dynamical model learning, we will develop the theory and neural network implementations that learn causal models of the environment from offline data. Further, with the expertise of Philippe Preux in reinforcement learning and explainable decision making, and of Eleni Vasilaki in brain-like RL and sparse representations, we will interface these models with reinforcement learning decision-making systems, testing them in simple virtual environments. Finally, the validated CausalXRL model will be applied to closed-loop brain-stimulation, as established in the lab of Moritz Grosse-Wentrup.