Thomas François* and Cédrick Fairon*
*Centre de Traitement automatique du langage; ILC (UCLouvain); Place Blaise Pascal, 1 bte L3.03.12; 1348, Belgium; thomas.francois@uclouvain.be, cedrick.fairon@uclouvain.be
Résumé
Cet article décrit une série d’expériences visant à (1) évaluer la contribution des techniques TAL à la mesure de la lisibilité des textes du français langue étrangère (FLE) et (2) à proposer une nouvelle formule de lisibilité spécifique au FLE. Ce nouveau modèle utilise quarantesix variables qui modélisent diverses caractéristiques lexicales, syntaxiques et sémantiques des textes, ainsi que certaines particularités du contexte FLE. L’article présente également une série de comparaisons entre des techniques de sélection de variables et des algorithmes d’apprentissage automatisé. Il apparaît que notre meilleur modèle, fondé sur les machines à vecteurs de support (SVM), surpasse de manière significative les modèles précédents pour le français. Quant à la contribution des techniques TAL à la lisibilité, nos résultats suggèrent que l’usage de variables TAL au sein des modèles ne produit pas des résultats significativement supérieurs à une approche classique, mais que combiner les deux types d’information conduit à une amélioration significative des performances.
Paru dans
Document
Rank
6