Extraction d'information à base de connaissances hybrides

Poibeau Thierry

Équipe: LIPN (Laboratoire d'Informatique de Paris-Nord)

Courriel: thierry.poibeau@thalesgroup.com

Contenu

Mots-clés: extraction d’information, compréhension de textes, corpus, technologie à nombre fini d’états, apprentissage, évaluation

Keywords: information extraction, text understanding, corpus, finite state technology, machine learning, evaluation

Résumé

Notre travail se situe dans le domaine de l’extraction d’information. Ce terme désigne l’activité qui consiste à remplir automatiquement une banque de données à partir de textes écrits en langue naturelle. La mise au point des ressources d’un système d’extraction est une tâche longue et fastidieuse, qui demande le plus souvent une expertise du domaine abordé et des connaissances en linguistique informatique. Ce point est bien connu et les concepteurs de systèmes mentionnent tous des temps prohibitifs passés à développer des ressources.

Comment rendre un système d’extraction plus adaptable ? Cette question est au centre de notre travail de thèse. Afin de bien cerner le problème, nous nous sommes attaché à prendre en compte une grande variété d’applications pour définir de manière précise les besoins opérationnels en matière d’extraction. Nous avons réalisé un système complet d’extraction appelé SEMTEX, qui a pu être appliqué à des tâches et à des domaines variés. Dans ce contexte, nous avons étudié différentes méthodes d’acquisition de connaissances afin de voir quelle stratégie était la mieux adaptée. Nous avons montré que les méthodes endogènes et exogènes pour l’acquisition de connaissances propres à un domaine étaient complémentaires. Il faut donc que le système d’extraction mis au point soit souple, capable d’exploiter des connaissances hybrides, provenant de différentes sources.

La thèse présente un état de l’art des travaux passés en extraction d’information et en acquisition de ressources. Nous montrons que la plupart des systèmes d’acquisition de ressources existants sont inadaptés à nos besoins, dans la mesure où ils reposent soit sur de grands corpus, soit sur des corpus annotés. Dans les contextes d’utilisation étudiés, la présence de corpus de taille réduite, variés mais généralement non annotés, nous a poussé à utiliser des connaissances hybrides. Le module de repérage des entités nommées est décrit en détail. Il repose sur une étude préalable de différentes méthodes et de différents systèmes, fondés soit sur des règles soit sur des techniques d’apprentissage. La solution proposée dans la thèse repose sur une intégration fine de différentes techniques et une mesure permet d’évaluer la gain potentiel dû à l’apprentissage en fonction du corpus à analyser. L’utilisateur peut donc adapter la stratégie d’analyse en fonction de ses attentes et de ses besoins.

Une fois les entités repérées, il importe de les mettre en relation à travers des patrons d’extraction, puis de généraliser ces patrons au moyen de classes sémantiques. L’acquisition automatique de classes sémantique par apprentissage a pu être testé grâce au système ASIUM ; cette approche nécessite un important travail de révision et un domaine d’application stable. L’acquisition à partir d’un réseau sémantique général comme le DICTIONNAIRE INTÉGRAL permet de bien couvrir un domaine donné mais des éléments clés peuvent ne pas être repérés. Les deux approches se complètent naturellement et la stratégie d’acquisition doit être adaptée en fonction de la situation d’utilisation.

Enfin, le mécanisme d’acquisition de patrons d’extraction mis en place adopte une approche hybride, en confrontant le corpus à un réseau sémantique général. Seules des séquences attestées en corpus sont retenues par le système, mais c’est le réseau sémantique (le DICTIONNAIRE INTÉGRAL) qui permet de calculer le sens de séquences visées. L’utilisation de tables de contraintes et d’automates patron implantés dans le système de gestion d’automate INTEX permet ensuite de gérer la variation des séquences visées sur le plan morpho-syntaxique. La solution mise au point a été testée en milieu opérationnel, avec un bilan globalement satisfaisant en termes de performances et d’utilisabilité.

Abstract

This work concerns Information extraction (IE). IE is a technology dedicated to the extraction of structured information from texts, to fill a database for instance. The elaboration of linguistic resources for such a system is a time-consuming and boring task. Moreover, to perform this task, people need an expertise of the application domain and some knowledge in computational linguistics. This is a well-known problem and system designers mention prohibitive amount of time to develop resources.

How can we make system more adaptive ? This is the major question raised by our thesis. In order to have an accurate idea of the problem, we have taken into account a large spectrum of applications. It is thus possible to precisely define operational needs in IE. We have developed a complete system named SEMTEX that has been applied to a large number of task and domain.

The thesis describes the different modules that have been developed to locate named entities in texts and put them in relation with each other. The system is then able to fill a predefined template. For each module, we have studied different knowledge acquisition method to determine which was the most successful. We have shown that endogenous and heterogeneous were complementary, so that it was necessary to define hybrid methods. This result is based on a set of experiments that are described in detail and are validated on different kind of applications and of domains.

Informations administratives

Jury

M. Christian FLUHR, Examinateur
M. Christian JACQUEMIN, Rapporteur
M. Daniel KAYSER, Directeur
Mme Adeline NAZARENKO, Co-directrice
M. Patrick SAINT-DIZIER, Rapporteur
M. Célestin SEDOGBO, Examinateur
M. Yorick WILKS, Rapporteur

Université: Université Paris 13 - Villetaneuse

Discipline: Informatique

Date de soutenance: 08 mars 2002

Lieu de soutenance: Université de Villetaneuse