Enrichissement automatique de lexique de noms propres à partir de corpus

Auteurs

Béchet, Frédéric

Nasr, Alexis

Genet, Franck

Résumé

Cet article présente une méthode d’étiquetage sémantique de noms propres fondé sur la technique des arbres de décision. Ces derniers permettent de modéliser les éléments saillants dans les contextes d’occurrence de noms propres d’une classe donnée. Les arbres de décision sont construits automatiquement sur un corpus d’apprentissage étiqueté, ils sont ensuite utilisés pour étiqueter des noms propres apparaissant dans un corpus de test. Les résultats de l’étiquetage du corpus de test est utilisé pour enrichir un lexique de noms propres. Ce dernier peut être utilisé à son tour pour réestimer les paramètres d’un étiqueteur stochastique. Nous nous intéressons en particulier au cas où le corpus de test a été glané sur le Web.

Mots-clés

expression régulière

entrée lexicale

étiquetage

arbre

arbre de décision

corpus

corpus de test

Conférence

TALN 2000 : 7e conférence annuelle sur le Traitement Automatique des Langues Naturelles