Segmenter et structurer thématiquement des textes par l’utilisation conjointe de collocations et de la récurrence lexicale

Auteurs
Ferret, Olivier
Résumé
Nous exposons dans cet article une méthode réalisant de façon intégrée deux tâches de l’analyse thématique : la segmentation et la détection de liens thématiques. Cette méthode exploite conjointement la récurrence des mots dans les textes et les liens issus d’un réseau de collocations afin de compenser les faiblesses respectives des deux approches. Nous présentons son évaluation concernant la segmentation sur un corpus en français et un corpus en anglais et nous proposons une mesure d’évaluation spécifiquement adaptée à ce type de systèmes.
Mots-clés
récurrence lexicale
réseau de collocations
algorithme de segmentation
Document