Enrichissement automatique de lexique de noms propres à partir de corpus

Auteurs
Béchet, Frédéric
Nasr, Alexis
Genet, Franck
Résumé
Cet article présente une méthode d’étiquetage sémantique de noms propres fondé sur la technique des arbres de décision. Ces derniers permettent de modéliser les éléments saillants dans les contextes d’occurrence de noms propres d’une classe donnée. Les arbres de décision sont construits automatiquement sur un corpus d’apprentissage étiqueté, ils sont ensuite utilisés pour étiqueter des noms propres apparaissant dans un corpus de test. Les résultats de l’étiquetage du corpus de test est utilisé pour enrichir un lexique de noms propres. Ce dernier peut être utilisé à son tour pour réestimer les paramètres d’un étiqueteur stochastique. Nous nous intéressons en particulier au cas où le corpus de test a été glané sur le Web.
Mots-clés
expression régulière
entrée lexicale
étiquetage
arbre
arbre de décision
corpus
corpus de test