L'apprentissage par renforcement est un cadre mathématique et algorithmique générique qui vise à développer des algorithmes qui interagissent avec leur environnement et s'améliorent au fil du temps pour maximiser leur récompense sur le long terme. Il permet d'aborder divers problèmes de prise de décision séquentielle comme la robotique, les jeux de plateaux ou jeux vidéo ou encore les véhicules autonomes. Cependant, ces agents d'apprentissage par renforcement nécessitent une grande quantité d'interactions avec leur environnement pour apprendre, et il est souvent difficile de concevoir une fonction de récompense qui soit précisément alignée sur ce que nous attendons de lui. L'apprenticeship learning s'attaque à ce problème en s'appuyant non seulement sur la fonction de récompense, mais aussi sur des données supplémentaires. Typiquement, ces données se présentent sous la forme de démonstrations. Comment tirer le meilleur parti de telles démonstrations, en particulier lorsqu'elles sont produites par un être humain, est une question ouverte. Cette thèse présente des contributions pratiques à l'apprenticeship learning. Nous nous intéressons d'abord à l'apprentissage par imitation, où le but est de mimer les démonstrations considérées comme optimales. Nous étudions comment concevoir un algorithme d'apprentissage par imitation adversariale. Nous donnons des recommandations sur les différents choix à faire lors de la conception d'un tel agent et nous soulignons les différences entre imiter des démonstrations synthétiques et humaines. Pour contourner la fragilité de ces méthodes (conséquence de leur formulation mathématique), nous concevons un nouvel algorithme d'apprentissage par imitation. En dérivant une borne supérieure d'une distance de transport optimale, nous évitons l'optimisation du point de selle et obtenons un algorithme simple avec peu d'hyperparamètres. Nous démontrons ses performances sur des tâches robotiques simulées dans un régime de données très faible. Nous étudions ensuite comment sélectionner des hyperparamètres dans le cadre de l'apprentissage par imitation, sans accès à la fonction de récompense. Nous utilisons pour cela les deux algorithmes susmentionnés ainsi que l'approche standard d'imitation par apprentissage supervisé. Dans une seconde partie, afin de tirer le meilleur parti à la fois des démonstrations et de la récompense, nous concevons un algorithme qui permet le transfert de la motivation intrinsèque des démonstrations à l'agent, améliorant ainsi son exploration de l'environnement. Nous montrons que la motivation apprise, extraite des données, transmet de l'information venant des démonstrations. Enfin, nous montrons que l'on peut transférer les incitations humaines d'une manière différente, en apprenant une discrétisation état-dépendante de l'espace d'action de l'agent. Nous montrons l'efficacité des algorithmes résultants sur une variété de tâches robotiques, en utilisant des démonstrations humaines ainsi que des données de jeux (sans objectif défini) humaines, avec ou sans fonction de récompense.
M. Philippe PREUX Université de Lille Directeur de thèse M. Pierre-Yves OUDEYER Inria Rapporteur M. Emmanuel RACHELSON ISAE-SUPAERO Rapporteur Mme Martha WHITE Alberta University Examinatrice M. Damien ERNST Université de Liège Examinateur M. Olivier PIETQUIN Google Research Co-directeur de thèse M. Olivier BACHEM Google Research Invité M. Matthieu GEIST Google Research Invité
Thèse de l'équipe SCOOL soutenue le 14/12/2022