BOLD

BOLD - Au delà de l’apprentissage séquentiel pour de meilleures prises de décisions

Coordinateur : Vianney Perchet (Center for Research in Economics and Statistics)
Partenaire : Émilie Kaufmann CNRS CRIStAL

Équipe : SCOOL du Groupe Thématique : DatInG.

Dates : 10/19 - 03/24

Résumé :

Partant de l’observation que les hypothèses sous-jacentes des modèles existants d’apprentissage séquentiel ne sont pas satisfaites en pratique, il est possible d’identifier plusieurs barrières à l’implémentation massive de ces techniques :
- le paradigme classique de "une donnée, une décision, une récompense" n’est pas adapté
- l’optimalité des performances d’un algorithmes est définie dans le pire cas
- les algorithmes n’étaient pas conçus pour un environnement non-stratégique ni interactif.

Enjeux et Objectifs

Les objectives du projet sont donc de lever ces trois freins au développement de l’apprentissage séquentiel :

1) Aller au delà de « une donnée, une décision« , en remarquant que l’idée générale que les données se doivent d’être traitées une à une à la volée n’est pas obligatoire. Il est bien souvent possible de les grouper, pour améliorer chaque décision prise (quitte à avoir moins de décisions, et moins de récompenses)

2) Aller au delà de « une donnée, une récompense« . Bien souvent, le concept de minimisation de perte cumulée est pratique en théorie, mais pas du tout adapté. De nombreux objectifs d’apprentissage ou d’optimisation sont globaux, et sont fonction non-linéaire de la suite de décisions.

3) Utiliser les structures sous-jacentes connues des données pour « battre les bornes inférieures« . En effet, bien souvent, les processus génératifs de données ne sont pas les pires que la théorie considère pour évaluer les performances des algorithmes. Au contraire, ils ont des particularités, à travers des corrélations (ou similarité) entre les données, connus a-priori. Les utiliser permettra d’accélérer les vitesses d’apprentissage et les performances des algorithmes.

4) Incorporer d’autres agents qui apprennent et interagissent dans l’environnement. De nos jours, les problèmes de décision séquentielles impliquent non plus un seul agent, mais tout un réseaux d’agents avec des objectives possiblement conflictuels. Il est donc crucial d’étudier les algorithmes d’apprentissage dans un cadre proche de celui de la théorie des jeux.

5) Modéliser et étudier les application issus de cas concrets. Au lieu de généraliser arbitrairement, et dans des directions qui semblent parfois aléatoires, les modèles déjà existant, le projet BOLD va remettre en question les fondements et la validité même de ces derniers, pour finalement en proposer de nouveaux en adéquation avec les applications.

Abstract

There are currently three main barriers to a broader development of online learning.
1) The classical « one step, one decision, one reward« paradigm is unfit.
2) Optimality is defined with respect to worst-case generic lower bounds and mechanics behind online learning are not fully understood.
3) Algorithms were designed in a non strategic or interactive environment.

General Objectives

Reactive ML algorithms adapt to data generating processes, typically do not require large computational power and, moreover, can be translated into offline (as opposed to online) algorithms if needed. Introduced in the 30s in the context of clinical trials, online ML algorithms have been gaining a lot of theoretical interest for the last 15 years because of their applications to the optimization of recommender systems, click through rates, planning in congested networks, to name just a few. However, in practice, such algorithms are not used as much as they should, because the traditional low-level modelling assumptions they are based upon are not appropriate, as it appears.
Instead of trying to complicate and generalise arbitrarily a framework unfit for potential applications, we will tackle this problem from another perspective. We will seek a better understanding of the simple original problem and extend it in the appropriate directions.
There are currently three main barriers to a broader development of online learning.
1) The classical « one step, one decision, one reward« paradigm is unfit.
2) Optimality is defined with respect to worst-case generic lower bounds and mechanics behind online learning are not fully understood.
3) Algorithms were designed in a non strategic or interactive environment.