Thesis of Edouard Leurent

Apprentissage par renforcement sûr et efficace pour la planification de comportement en conduite autonome

Dans cette thèse de doctorat, nous étudions comment des véhicules autonomes peuvent apprendre à garantir la sûreté et à éviter les accidents, bien qu'ils partagent la route avec des conducteurs humains dont les comportements sont incertains. Pour prendre en compte cette incertitude, nous nous appuyons sur les observations en ligne de l'environnement pour construire une région de confiance autour de la dynamique du système, qui est ensuite propagée au cours du temps pour borner l'ensemble des trajectoires possibles des véhicules à proximité. Pour assurer la sûreté en présence de cette incertitude, nous avons recours à la prise de décision robuste, qui préconise de toujours considérer le pire cas. Cette approche garantit que la performance obtenue pendant la planification sera également atteinte sur le système réel, et nous montrons dans une analyse de bout en bout que la sous-optimalité qui en résulte est bornée. Nous en fournissons une implémentation efficace, basée sur des algorithmes de recherche arborescente. Une seconde contribution est motivée par le constat que cette approche pessimiste tend à produire des comportements excessivement prudents : imaginez vouloir dépasser un véhicule, quelle certitude avez-vous que ce dernier ne changera pas de voie au tout dernier moment, provoquant un accident ? Ce type de raisonnement empêche les robots de conduire aisément parmi d'autres conducteurs, de s'insérer sur une autoroute ou de traverser une intersection, un phénomène connu sous le nom de « robot figé ». Ainsi, la présence d'incertitude induit un compromis entre deux objectifs contradictoires : sûreté et efficacité. Comment arbitrer ce conflit ? La question peut être temporairement contournée en réduisant au maximum l'incertitude. Par exemple, nous proposons une architecture de réseau de neurones basée sur de l'attention, qui tient compte des interactions entre véhicules pour améliorer ses prédictions. Mais pour aborder pleinement ce compromis, nous nous appuyons sur la prise de décision sous contrainte afin de considérer indépendamment les deux objectifs de sûreté et d'efficacité. Au lieu d'une unique politique de conduite, nous entrainons toute une gamme de comportements, variant du plus prudent au plus agressif. Ainsi, le concepteur du système dispose d'un curseur lui permettant d'ajuster en temps réel le niveau de risque assumé par le véhicule.

Jury

M. Odalric-Ambrym MAILLARD Inria Lille - Nord Europe Directeur de thèse M. Lucian BUşONIU Université Technique de Cluj-Napoca Rapporteur M. Jorge VILLAGRA Université Polytechnique de Madrid Rapporteur M. Marc DEISENROTH University College London Examinateur Mme Luce BROTCORNE Inria Lille - Nord Europe Président M. Denis EFIMOV Inria Lille - Nord Europe Examinateur M. Yann BLANCO Renault Invité M. Wilfrid PERRUQUETTI École Centrale de Lille Invité

Thesis of the teams VALSE, SHOC and SCOOL defended on 30/10/2020