Filtrages syntaxiques de co-occurrences pour la représentation vectorielle de documents

Auteurs
Besançon, Romaric
Rajman, Martin
Résumé
L’intégration de co-occurrences dans les modèles de représentation vectorielle de documents s’est avérée une source d’amélioration de la pertinence des mesures de similarités textuelles calculées dans le cadre de ces modèles (Rajman et al., 2000 ; Besançon, 2001). Dans cette optique, la définition des contextes pris en compte pour les co-occurrences est cruciale, par son influence sur les performances des modèles à base de co-occurrences. Dans cet article, nous proposons d’étudier deux méthodes de filtrage des co-occurrences fondées sur l’utilisation d’informations syntaxiques supplémentaires. Nous présentons également une évaluation de ces méthodes dans le cadre de la tâche de la recherche documentaire.
Mots-clés
représentation vectorielle
syntaxe
pondération locale
méthode de filtrage
fréquence
fréquence de co-occurrence
Document