Thèse de Julien Perolat

Apprentissage par renforcement : le cas multijoueur

Ce manuscrit de thèse présente des travaux d'apprentissage par renforcement dans le cadre des jeux stochastiques. Les deux première parties de ce manuscrit sont dédiées à l'apprentissage à partir de données dites batch. Une première approche par programmation dynamique approchée est proposée dans le cadre des jeux à deux joueurs à somme nulle et ses limitations sont discutées dans le cadre des jeux à somme générale. Puis, nous étudions une seconde approche par minimisation du résidu de Bellman dans le cadre des jeux à deux joueurs à somme nulle et l'étendons aux jeux à somme générale. Finalement, on s'intéresse à l'apprentissage en ligne et introduisons un algorithme acteur-critique qui converge pour des jeux à somme nulle et des jeux coopératifs à étages.

Jury

Directeur de thèse : Olivier PIETQUIN Rapporteurs : Damien ERNST, Doina PRECUP Examinateurs : Laurance Duchien, Ronald ORTNER, Bilal PIOT, Bruno SCHERRER, Karl TUYLS

Thèse de l'équipe soutenue le 18/12/2017