Étude sur la normalisation lexicale de contenus produits par les utilisateurs

Lydia Nishimwe*, Benoît Sagot** et Rachel Bawden***
*Inria, Paris, France
Résumé
L’essor du traitement automatique des langues (TAL) se vit dans un monde où l’on produit de plus en plus de contenus en ligne. En particulier sur les réseaux sociaux, les textes publiés par les internautes sont remplis de phénomènes « non standard » tels que les fautes d’orthographe, l’argot, les marques d’expressivité, etc. Ainsi, les modèles de TAL, en grande partie entraînés sur des données « standard », voient leur performance diminuer lorsqu’ils sont appliqués aux contenus produits par les utilisateurs (User-Generated Content, UGC). L’une des approches pour atténuer cette dégradation est la normalisation lexicale : les mots non standard sont remplacés par leurs formes standard. Dans cet article, nous réalisons un état de l’art de la normalisation lexicale des UGC. Nous discutons de ses avantages, limites et perspectives de travaux de recherche, ainsi que de sa pertinence dans l’avenir du TAL : les modèles actuels étant déjà très robustes aux UGC, la normalisation lexicale reste utile dans des contextes de ressources limitées, ou pour des études sociolinguistiques.
Résumé (en anglais)
The boom of natural language processing (NLP) is taking place in a world where more and more content is produced online. On social networks especially, the textual content published by users is full of “non-standard” phenomena such as spelling mistakes, jargon, marks of expressiveness, etc. Therefore, NLP models, which are largely trained on “standard” data, suffer a decline in performance when applied to user-generated content (UGC). One approach to mitigate this degradation is through lexical normalisation, where non-standard words are replaced by their standard forms. In this paper, we review the state of the art of lexical normalisation of UGC. We discuss its advantages, limitations and research perspectives, and its relevance in the future of NLP: while current models are already very robust to UGC, lexical normalisation remains useful in resource-limited contexts or for sociolinguistic studies. KEYWORDS: lexical normalisation, user-generated content (UGC), social media.
Document
Rank
1