Thesis of Reda Ouhamma

Apprentissage par renforcement réaliste

Dans cette thèse de doctorat, nous considérons le défi de rendre l'apprentissage par renforcement plus adapté aux problèmes du monde réel sans perdre les garanties théoriques. Il s'agit d'un domaine de recherche très actif, car l'application au monde réel est l'objectif final de cette littérature ainsi que la motivation première des cadres spécifiques de l'apprentissage par renforcement. Les garanties théoriques sont, comme leur nom l'indique, l'assurance que la théorie peut fournir sur la performance et la fiabilité de nos stratégies. Le développement de ce domaine est crucial pour améliorer les algorithmes RL interprétables. Notre travail est structuré autour de quatre contextes différents, nous commençons par une introduction au domaine et une revue générale de la littérature, y compris les bandits, les processus de Markov (MDP), certains objectifs d'apprentissage par renforcement, et quelques défis de RL réalistes. La thèse se poursuit en spécifiant divers scénarios spécifiques ainsi que différentes approches pour relever quelques défis pertinents du RL. Nous nous attaquons d'abord à un scénario séquentiel d'identification de signe pour les bandits à bras multiples, où nous concevons une méthode générique pour définir des algorithmes, une nouvelle stratégie de preuve fournissant des limites d'erreur. Ensuite, nous présentons de nouvelles observations comparant les algorithmes adaptatifs aux oracles hors ligne. Notre deuxième contribution est une amélioration théorique de la régression linéaire séquentielle pour des limites de regret améliorées et une stabilité accrue, nous nous sommes inspirés de résultats bien établis sur le cas adversatif et les avons adaptés au cadre stochastique, puis nous avons illustré les améliorations avec une application aux bandits linéaires. Une contribution significative de cette thèse est l'étude de la récente représentation de la famille exponentielle bilinéaire pour les MDPs à espaces continus. Nous avons pu faire des observations notables menant à des solutions explicites et à des garanties théoriques améliorées. Enfin, nous nous sommes attaqués au problème des gradients de politiques profondes où nous avons introduit une mesure d'erreur bien justifiée pour un apprentissage plus précis de la fonction de valeur. Le besoin de cette dernière amélioration a été fortement motivé par des travaux récents ainsi que par plusieurs expérimentations que nous avons fournies. En outre, l'évaluation expérimentale approfondie de notre nouvelle approche révèle une augmentation notable des performances, ce qui corrobore nos intuitions et valide nos affirmations. Les résultats de cette thèse démontrent un progrès substantiel dans la littérature RL, tant sur le plan pratique que théorique, offrant des perspectives et des solutions précieuses pour la communauté RL. Nous pensons que les méthodes proposées ont le potentiel de combler le fossé entre la théorie du RL motivée par les applications, faisant de cette thèse une contribution significative au domaine.

Jury

M. Odalric-Ambrym MAILLARD Université de Lille Directeur de thèse M. Olivier WINTENBERGER Sorbone Université Rapporteur M. Aurélien GARIVIER ENS Lyon Rapporteur Mme Shipra AGRAWAL Columbia University Examinatrice M. Olivier CAPPE Université PSL Examinateur Mme Alexandra CARPENTIER Université de Postdam Examinatrice M. Vianney PERCHET ENSAE Co-directeur de thèse M. Aditya GOPALAN Indian Institute of Science Examinateur

Thesis of the team SCOOL defended on 14/04/2023