Dans cette thèse de doctorat, nous étudions l'apprentissage séquentiel (dit ``par renforcement'') en intelligence artificielle, plus particulièrement les notions d'actions et d'interactivité. En apprentissage par renforcement, un agent reçoit des informations sur son environnement et agit en conséquence. Le but étant de maximiser une quantité appelée récompense. La planification (quelles sont les conséquences à long terme des actions effectuées et quelle quantité de récompenses peux-t-on en tirer) et l'exploration (comment récupérer un maximum d'informations en un minimum de temps) sont au coeur de cette discipline. L'intelligence artificielle et les sciences cognitives ont grandi de concert depuis les années 50. L'étude de la cognition a nourri les pionniers de l'intelligence artificielle et le courant cognitiviste s'inspirait de la modularité d'un ordinateur pour expliquer le fonctionnement du cerveau. Depuis, le courant cognitiviste a laissé place à la cognition incarnée. Au lieu de considérer l'intelligence comme un ensemble de fonctions abstraites, les représentations mentales sont construites et guidées par les interactions avec le monde. Nous souhaitons analyser les algorithmes d'apprentissage par renforcement avec ce même regard, en replaçant les intéractions au centre de notre analyse. Les actions définissent l'interface entre l'agent apprennant et l'environnement: Pour le contrôle d'un robot, les actions correspondent aux forces exercées par les moteurs. Dans un jeu vidéo, elles correspondent aux différents boutons que l'on peut presser. On appelle ces différentes formes d'actions possibles: espace d'actions. Dans un premier temps, nous proposons une taxonomie des différents espaces d'actions et les problèmes qu'ils posent. Par exemple : ``Que se passe-t-il lorsqu'un agent doit choisir parmi plusieurs milliers d'actions ?'' ou ``Comment ignorer des actions inutiles ou généraliser à des actions jamais vues ?'' Dans un deuxième temps, nous montrons qu'en intégrant des connaissances sur les actions, on peut améliorer la vitesse d'apprentissage. La première application considérée est l'apprentissage robuste, dans lequel la sécurité est tout aussi importante que la performance. Lorsque l'environnement nous empêche de faire certaines actions par sécurité, la prise en compte de cette information permet d'apprendre plus vite. Le deuxième cas porte sur l'exploration dans un environnement contenant multitudes d'objets à utiliser pour résoudre des problèmes type labyrinthe. Nous montrerons que pousser un agent à chercher les actions clefs qui intéragissent avec les objets permet une meilleure exploration que les autres méthodes de l'état de l'art. La troisième partie de ce manuscrit porte sur l'apprentissage multi-but, c'est à dire apprendre une multitude de séquences d’actions, chacune accomplissant une tâche différente. Nous nous focalisons sur l'apprentissage d'instructions en langage naturel. Le langage simplifie la définition d'une multitude de sous-tâches en décrivant simplement ce que l'agent doit accomplir. Nous proposons un algorithme permettant de réduire la complexité d'apprentissage lorsqu'un grand nombre de buts doit être accomplis. Enfin, la dernière partie porte sur la transformation de tâche non-interactive (supervisée) en tâche interactive. Rendre l'agent actif dans son apprentissage permet d'élargir les possibilités de l'apprentissage supervisé en lui permettant de choisir lui-même les informations intéressantes. Nous montrons qu'en changeant la définition d'une tâche de reconnaissance de locuteur, on réduit le temps d'apprentissage et le nombre de mots nécessaire à la reconnaissance.
M. Olivier PIETQUIN - Université de Lille - Google Brain - Directeur de thèse M. Olivier SIGAUD - Sorbonne Université - Rapporteur M. Ludovic DENOYER - Sorbonnes Université - Facebook AI Research - Rapporteur M. Philippe PREUX - Université de Lille - Co-directeur de thèse Mme Sao Mai NGUYEN - IMT Atlantique - Examinatrice M. Fabrice LEFEVRE - Université d'Avignon - Examinateur M. Florian STRUB - Deepmind - Invité
Thesis of the team SCOOL defended on 28/09/2021