Repérer automatiquement les segments obsolescents à l’aide d’indices sémantiques et discursifs

Marion Laignelet* and François Rioult**
*Laboratoire CLLE-ERSS; UMR 5263 CNRS; allées Antonio Machado; 31058 Toulouse Cedex; marion.laignelet@univ-tlse2.fr
**Université de Caen Basse-Normandie; Laboratoire GREYC - UMR 6072 CNRS; Campus 2 Côte de Nacre; 14032 Caen cedex; francois.rioult@unicaen.fr
Résumé
Cet article vise la description et le repérage automatique de segments contenant de l’obsolescence dans les documents de type encyclopédique. Nous supposons, malgré le caractère non linguistique de ce phénomène, que des indices discursifs permettent le repérage de ces segments. Nous travaillons sur un corpus annoté manuellement par des experts sur lequel nous projetons des indices repérés automatiquement. Nous utilisons des techniques d’apprentissage automatique pour évaluer le pouvoir prédictif de nos indices. À l’aide de techniques de classification supervisée, nous montrons que nos hypothèses sont pertinentes et permettent d’envisager le déploiement d’une méthode automatique pour l’aide au repérage de segments obsolescents.
Paru dans