Approches endogène et exogène pour améliorer la segmentation thématique de documents

Olivier Ferret*
*CEA-LIST/LIC2M; 18, route du Panorama - B.P. 6; F-92265 Fontenay-aux-Roses Cedex; ferreto@zoe.cea.fr
Résumé
La segmentation thématique de documents a fait l’objet d’un nombre important de travaux dont il n’est pas toujours facile de dégager des conclusions claires, en particulier en ce qui concerne l’utilisation de connaissances. Dans cet article, nous proposons d’examiner deux voies se situant dans le même cadre pour améliorer une méthode de segmentation fondée sur la simple récurrence lexicale. La première est endogène. Elle exploite la similarité distributionnelle des mots au sein des documents pour en découvrir les thèmes. Ces thèmes sont ensuite utilisés pour faciliter l’identification des similarités thématiques entre unités de discours. La seconde réalise le même but en faisant appel à une ressource externe, en l’occurrence un réseau de cooccurrences lexicales construit à partir d’un large corpus. Ces deux approches sont également combinées. Une évaluation de ces deux approches et de leur combinaison est réalisée dans un même cadre et illustre l’intérêt de cette combinaison.
Document
Rank
5