TopicRank : ordonnancement de sujets pour l’extraction automatique de termes-clés

Adrien Bougouin* et Florian Boudin*
*LINA - UMR CNRS 6241, Université de Nantes UFR de Sciences et Techniques, 2 rue de la Houssinière, 44322 Nantes, France
Résumé
Les termes-clés sont les mots ou les expressions polylexicales qui représentent le contenu principal d’un document. Ils sont utiles pour diverses applications telles que l’indexation automatique ou le résumé automatique, mais ne sont cependant pas disponibles pour la plupart des documents. La quantité de ces documents étant de plus en plus importante, l’extraction manuelle des termes-clés n’est pas envisageable et la tâche d’extraction automatique de termes-clés suscite alors l’intérêt des chercheurs. Dans cet article nous présentons Topic-Rank, une méthode non supervisée à base de graphe pour l’extraction de termes-clés. Cette méthode groupe les termes-clés candidats en sujets, ordonne les sujets et extrait de chacun des meilleurs sujets le terme-clé candidat qui le représente le mieux. Les expériences réalisées montrent une amélioration significative vis-à-vis de l’état de l’art des méthodes à base de graphe pour l’extraction non supervisée de termes-clés.
Paru dans
Document
Rank
2