Thesis of Mathieu Dehouck

Parsing en dépendance multilingue : rejprésentation de mots en apprentissage joint pour l'analyse syntaxique

L’analyse syntaxique est une étape cruciale du traitement de la langue. Suite aux récentes avancées dans le domaine de l’apprentissage automatique, les parsers (analyseurs syntaxiques) atteignent des résultats comparables à ceux d’experts humains. Cependant, en dépit des efforts de la communauté, le nombre de langues ayant des données annotées est encore relativement faible et seules une vingtaine de langues ont plus de 10000 phrases annotées. Afin de lutter contre le manque de données d’apprentissage et rendre l’analyse syntaxique en dépendances accessible à plus de langues, des chercheurs ont proposé des méthodes pour partager de l’information syntaxique entre différentes langues. En transférant modèles et/ou annotations ou en apprenant à analyser plusieurs langues en même temps, l’on peut profiter des similarités grammaticales des différentes langues et ainsi améliorer leurs analyses respectives. Par contre, alors que les mots sont une source d’information importante pour l’analyse monolingue, ils sont bien moins facilement utilisables dans un contexte multilingue du fait de le grande variabilité même entre des langues proches. Les traits grammaticaux (personne, genre, mode, cas...) sont biens plus stables que les mots et ils encodent directement de l’information syntaxique. Il est également plus simple d’annoter du texte juste avec les traits grammaticaux qu’avec la structure en dépendances complète. D’autant plus qu’avec l’augmentation de nombre langues ayant des données annotées suivant les mêmes règles d’annotation, il devient possible d’utiliser l’information morphologique comme pont entre les langues pour l’analyse syntaxique multilingue en dépendances. Dans cette thèse, nous présentons de nouvelles méthodes pour partager de l’information entre plusieurs langues. Elles ont en commun le fait d’utiliser la morphologie comme espace de représentation pour partager l’in- formation. Nous présentons également une nouvelle mesure de la complexité morphosyntaxique nous permettant d’étudier le rôle de la morphologie dans l’analyse en dépendances. La première méthode utilise de l’information morphologique de plusieurs langues pour induire des représenta- tions de mots délexicalisées qui peuvent être utilisées ensuite pour améliorer les résultats de parsers monolingues. La seconde méthode traite la morphologie comme un espace de travail commun à toutes les langues pour y partager de l’information lors de l’apprentissage simultané de modèles d’analyse syntaxique. L’apprentissage y est guidé par l’arbre phylogénique des différentes familles de langues, ce qui permet de partager de l’information entre les langues historiquement liées susceptibles de partager des trait grammaticaux. Nous montrons par le biais d’expériences avec les données du projet Universal Dependencies que cette nouvelle méthodes d’apprentissage est bien plus efficace que l’apprentissage de modèles indépendants pour les langues ayant très peu de ressources, et qu’elle est aussi bénéfiques pour les langues mieux dotées dès que leurs branches sont biens fournies. Nous finissons avec une étude de la valeur intrinsèque de la morphologie pour l’analyse syntaxique. Dans les faits, alors que certaines langues utilisent la morphologie pour encoder de l’information syntaxique (avec les cas et les personnes), d’autres encodent surtout de l’information sémantique (comme le temps ou le mode). Ainsi nous introduisons une nouvelle mesure de la complexité morphosyntaxique qui quantifie l’information syntaxique contenue dans la morphologie en termes d’attachement préférentiel au gouverneur. Nous montrons par une série d’expériences que cette nouvelle mesure est capable de discriminer les langues morphosyntaxiques des langues morphosémantiques et qu’elle prédit mieux la qualité de l’analyse syntaxique d’une langue que les mesures plus traditionnelles de complexité morphologique.

Jury

M. Marc TOMMASI Université de Lille Directeur de thèse Mme Hélène TOUZET Université de Lille Examinateur Mme Sandra KUBLER Indiana University Bloomington Rapporteur M. Alexis NASR Université d'Aix Marseille Rapporteur M. Philippe BLACHE Université d'Aix Marseille Examinateur M. Pascal DENIS Université de Lille Examinateur M. Carlos GOMEZ RODRIGUEZ Universidade da Coruna Examinateur

Thesis of the team MAGNET defended on 20/05/2019