Cette thèse, écrite pour l'obtention du doctorat en Informatique, étudie la question de l'importance individuelle des actions dans la prise de décision séquentielle, via le prisme de l'Apprentissage par Renforcement, avec diverses applications. Une découverte importante de ce travail est que deux problèmes ouverts en apparence distincts en Apprentissage par Renforcement, à savoir le problème d'assignation de crédit et l'interprétabilité, ont des solutions partielles qui impliquent des outils communs qui peuvent être vus comme des estimations de formes particulières d'importance des actions. Des algorithmes qui correspondent à des formes distinctes d'importance des actions sont proposées et étudiées empiriquement, d'un point de vue plus théorique, ou les deux.
M. Philippe PREUX - Université de Lille - Directeur de thèse M. Fabien MOUTARDE - Mines Paris - Rapporteur M. David FILLIAT - ENSTA Paris - Rapporteur M. Olivier PIETQUIN - Google Research - Co-directeur de thèse Mme Ofra AMIR - Technion - Examinatrice M. Théophane WEBER - DeepMind - Examinateur M. Matthieu GEIST - Université de Lorraine - Invité
Thesis of the team SCOOL defended on 04/07/2022