SLANT - Signaux de biais en LAngage Naturel : Théorie et pratique
Coordinateur : Philippe MULLER (Institut de Recherche en Informatique de Toulouse)
Partenaire : Pascal Denis INRIA de l’Université de Lille CRIStAL
Équipe : MAGNET du Groupe Thématique : DatInG.
Dates : 10/19 - 04/24
Résumé :
La désinformation (fake news, biais entre autres) est devenu un problème sérieux dans l’espace public, médias ou forums sociaux. La détection de fake news commence à générer des approches automatisées, mais cela concerne pas les présentations biaisées. Le projet SLANT a pour but de caractériser le biais dans des données textuelles, soit intentionnel dans des communications trompeuses, soit involontaire dans des écrits se voulant neutres. En partant d’un modèle abstrait des interprétations biaisées, fondé sur des travaux sémantiques et d’analyse discursive, le projet vise à développer des moyens de repérer des différences pertinentes au niveau lexical, stylistique, rhétorique, à travers des méthodes automatiques mais explicables de comparaison de documents concernant des événements similaires, en utilisant un corpus journalistique avec des sources diverses. Nous explorerons aussi comment cela peut aider à changer l’orientation d’un texte ou atténuer le biais dans les représentations textuelles.
Abstract
There is a growing concern about misinformation or biased information in public communication, whether in traditional media or social forums.
While automating fact-checking has received a lot of attention, the problem of fair information is much larger and includes more insidious forms like biased presentation of events and discussion.
The SLANT project aims at characterising bias in textual data, either intended, in public reporting, or unintended in writing aiming at neutrality.
An abstract model of biased interpretation using work on discourse structure, semantics and interpretation will be complemented and concretised by finding relevant lexical, syntactic, stylistic or rhetorical differences through an automated but explainable comparison of texts with different biases on the same subject, based on a dataset of news media coverage from a diverse set of sources. We will also explore how our results can help alter bias in texts or remove it from automated representations of texts.