Thèse de Florian Strub

Développement de modèles multimodaux et interactifs pour l'apprentissage de la langue dans des environnements visuels

Alors que nous nous représentons le monde au travers de nos sens, de notre langage et de nos interactions, chacun de ces domaines a été historiquement étudié de manière indépendante en apprentissage automatique. Heureusement, ce cloisonnement tend à se défaire grâce aux dernières avancées en apprentissage profond, ce qui a conduit à l’uniformisation de l’extraction des données au travers des communautés. Cependant, les architectures neuronales multimodales n’en sont qu’à leurs premiers balbutiements et l’apprentissage par renforcement profond est encore souvent restreint à des environnements limités. Idéalement, nous aimerions pourtant développer des modèles multimodaux et interactifs afin qu’ils puissent correctement appréhender la complexité du monde réel. Dans cet objectif, cette thèse s’attache à la compréhension du langage combiné à la vision pour trois raisons : (i) ce sont deux modalités longuement étudiées aux travers des différentes communautés scientifiques (ii) nous pouvons bénéficier des dernières avancées en apprentissage profond pour les modèles de langues et de vision (iii) l’interaction entre l’apprentissage du langage et notre perception a été validé en science cognitives. Ainsi, nous avons conçu le jeu GuessWhat?! (KéZaKo) afin d’évaluer la compréhension de langue combiné à la vision de nos modèles : deux joueurs doivent ainsi localiser un objet caché dans une image en posant une série de questions. Nous introduisons ensuite le principe de modulation comme un nouveau module d’apprentissage profond multimodal. Nous montrons qu’une telle approche permet de fusionner efficacement des représentations visuelles et langagières en prenant en compte la structure hiérarchique propre aux réseaux de neurones. Enfin, nous explorons comment l’apprentissage par renforcement permet l’apprentissage de la langue et cimente l’apprentissage des représentations multimodales sous-jacentes. Nous montrons qu’un tel apprentissage interactif conduit à des stratégies langagières valides mais donne lieu à de nouvelles problématiques de recherche.

Jury

M. Olivier PIETQUIN Université de Lille, Google Directeur de thèse M. Jérémie MARY Université de Lille, Criteo Co-directeur de thèse M. Patrick GALLINARI Campus Pierre et Marie Curie Sorbonne Université - LIP6 Examinateur M. Aaron COURVILLE Université de Montréal, Mila, CIFAR Fellow Montréal Examinateur Mme Angeliki LAZARIDOU DeepMind Examinateur Mme Verena RIESER Heriot-Watt University Rapporteur M. Patrick PEREZ Valeo Rapporteur Mme Michele SEBAG Laboratoire de Recherche en Informatique, CNRS, UMR 862 Examinateur

Thèse de l'équipe soutenue le 28/01/2020