Extraction d’informations à partir de corpus dégradés

Auteurs

Even, Fabrice

Enguehard, Chantal

Résumé

Nous présentons une méthode automatique d’extraction d’information à partir d’un corpus mono-domaine de mauvaise qualité, sur lequel il est impossible d’appliquer les méthodes classiques de traitement de la langue naturelle. Cette approche se fonde sur la construction d’une ontologie semi-formelle (modélisant les informations contenues dans le corpus et les relations entre elles). Notre méthode se déroule en trois phases : 1) la normalisation du corpus, 2) la construction de l’ontologie, et 3) sa formalisation sous la forme d’une grammaire. L’extraction d’information à proprement parler exploite un étiquetage utilisant les règles définies par la grammaire. Nous illustrons notre démarche d’une application sur un corpus bancaire.

Mots-clés

extraction

extraction d’information

ontologie

base de données

corpus

descripteur

Conférence

TALN - RECITAL - JEP 2002 : 9e conférence annuelle sur le Traitement Automatique des Langues Naturelles