Soutenance de thèse de Bastien Lietard

modèles computationnels du changement lexico-sémantique par reconnaissance des concepts

15 janvier 2026 à 15h30 (INRIA Lille)

La sémantique lexicale, qui étudie les mots et leur sens, peut être abordée sous un angle diachronique en analysant comment les associations conventionnelles entre les mots et leur signification apparaissent ou disparaissent. Ces changements sont appelés « changements lexico-sémantiques », et peuvent être étudiés dans deux perspectives complémentaires. L'approche sémasiologique part d'un mot donné et décrit ses différentes significations au fil du temps. À l'inverse, l'approche onomasiologique part d'un concept spécifique et examine les expressions lexicales que les locuteurs utilisent pour l'exprimer. La recherche en Traitement Automatique des Langues (TAL) a développé des modèles du changement lexico-sémantique et a proposé des méthodes d'évaluation standards pour ces modèles. Cependant, cette ligne de recherche s'est concentrée presque exclusivement sur la détection et la quantification des changements sémasiologiques, sans prêter beaucoup d'attention à la caractérisation du changement et à l'étude de ses aspects onomasiologiques. L'objectif principal de cette thèse est de proposer des modèles de TAL pour caractériser les changements onomasiologiques et sémasiologiques. Plus précisément, nous utilisons les plongements lexicaux pour extraire des concepts sémantiques et les mots qui leur sont associés, et pour étudier l'évolution de ces associations dans des textes historiques. Dans un cadre synchronique d'abord, nous étudions l'extraction de concepts sémantiques à partir de représentations de modèles de langue contextualisés. Nous développons un cadre d'évaluation, appelé « Concept Induction », pour mesurer la capacité d'un système à représenter les associations mots-sens en apprenant un regroupement des mots en groupes de synonymes instanciant un concept commun dans les données. Nous proposons une méthode basée sur un partitionnement à deux niveaux des occurrences de mots afin d'extraire ces groupes. Nous explorons ensuite des moyens de mieux représenter les informations lexico-sémantiques avec des modèles de langue. Nous affinons une série de modèles de représentation multilingues pour un nouvel objectif de sémantique lexicale. L'évaluation démontre que les modèles obtenus, appelés « Concept-Aligned Embeddings » (CALE), encodent mieux les informations conceptuelles que les modèles pré-entraînés et d'autres modèles de pointe, et qu'ils présentent des propriétés spatiales intéressantes pour l'étude des concepts. Dans un cadre diachronique, nous adaptons notre regroupement à deux niveaux pour apprendre des concepts dans des données historiques. L'approche synchronique initiale est modifiée afin d'apprendre des concepts sur plusieurs périodes et sans données annotées. Nous appliquons cette méthode d'induction diachronique de concepts à un vaste corpus historique français et procédons à une évaluation qualitative des clusters obtenus et de leur évolution dans le temps. Nous démontrons que cette méthode permet d'identifier à la fois les changements onomasiologiques et sémasiologiques et de décrire les changements sémantiques lexicaux sous ces deux angles. Nous examinons ensuite les changements lexico-sémantiques des synonymes comme exemple de changements onomasiologiques. En nous appuyant sur une étude computationnelle de deux lois linguistiques qui prédisent une évolution différente pour les synonymes, nous définissons un cadre d'évaluation pour les approches computationnelles de ces changements. Nous montrons que le modèle proposé est intrinsèquement limité dans la caractérisation du changement des synonymes, car il se restreint à une description sémasiologique du problème. Enfin, nous démontrons que notre méthode d'induction diachronique des concepts, lorsqu'elle est appliquée à des données historiques, permet de décrire plus précisément le changement sémantique des synonymes et révèle que les lois apparemment contradictoires peuvent en fait s'appliquer simultanément à des groupes de synonymes.

Jury

M. Marc TOMMASI Université de Lille Directeur de thèse, M. Mathieu CONSTANT Université de Lorraine Rapporteur, M. Yang XU University of Toronto Rapporteur, Mme Anne CARLIER Sorbonne Université Co-directrice de thèse, Mme Katrin ERK University of Massachusetts Amherst Examinatrice, M. Kris HEYLEN Instituut voor de Nederlandse Taal Examinateur, Mme Mikaela KELLER Université de Lille Co-encadrante de thèse, M. Pascal DENIS Inria Lille Co-encadrant de thèse.

Plus d'actualités