Une méthode d’extraction d’information fondée sur les graphes pour le remplissage de formulaires

Ludovic Jean-Louis, Romaric Besançon, Olivier Ferret
CEA, LIST, Laboratoire Vision et Ingénierie des Contenus
91191 Gif-sur-Yvette Cedex
France
[ludovic.jean-louis,romaric.besancon,olivier.ferret]@cea.fr
 
Une tâche importante des systèmes d’extraction d’information se focalisant sur des événements est le remplissage de formulaires regroupant, en les caractérisant par leur type, les informations associées à un événement donné à partir d’un texte. Cette tâche peut s’avérer difficile lorsque l’information est dispersée à l’échelle du texte et mélangée à des éléments d’information liés à d’autres événements similaires. Nous proposons dans cet article une approche en deux étapes pour prendre en compte ce problème : d’abord une segmentation du texte en événements pour identifier les phrases relatives à un même événement, puis une méthode de sélection des entités liées à l’événement dans ces phrases. Une évaluation de cette approche sur un corpus annoté de dépêches dans le domaine des événements sismiques montre une F1mesure de 77 % pour la tâche de remplissage de formulaires.