Extraction de liens sémantiques entre termes à partir de corpus de textes techniques

Morin Emmanuel

Équipe: Langage Naturel

Contenu

Mots-clés: traitement automatique du langage naturel, terminologie, hyperonymie, schéma lexico-syntaxique, relation sémantique, extraction d’information
Keywords: natural language processing, terminology, hyperonymy, lexico-syntactic pattern, semantic relationship, information extraction
Résumé
L’extraction d’information à partir de corpus connaît un essor important en raison de la multiplication des outils d’analyse massive de données textuelles. La direction de recherche la plus communément rencontrée dans ce domaine est la classification sémantique reposant sur des régularités distributionnelles. Cet axe, qui a déjà été largement exploré, souffre des défauts suivants : (1) les classes sémantiques obtenues n’ont pas de signification a priori, (2) les classes regroupent des entités linguistiques hétérogènes et (3) la similitude conceptuelle est un lien " neutre " ; or il est nécessaire de mettre en évidence des liens typés étiquetables.

Les travaux réalisés dans le cadre de cette thèse proposent une alternative à l’analyse distributionnelle en s’appuyant sur l’exploitation de productions langagières qui permettent une identification à forte valeur conceptuelle. Les productions langagières que nous cherchons à identifier peuvent s’exprimer sous la forme de schémas lexico-syntaxiques simples mais très diversifiés. Pour identifier ces schémas, nous avons développé le système Promethée, qui à partir d’une analyse fine et précise de corpus, extrait des schémas lexico-syntaxiques caractéristiques d’une relation sémantique. L’originalité de notre méthode est de projeter en corpus des paires de termes déjà en relation pour relever leurs différentes manifestations linguistiques. L’acquisition de schémas lexico-syntaxiques se fait incrémentalement au travers d’un analyseur de surface et d’un classifieur où les interventions humaines se limitent à une validation terminologique.

Les relations que nous extrayons par cette technique sont utiles en construction automatique de thesaurus ou de bases de connaissances expertes ou terminologiques.

Abstract
Extracting information from corpora has achieved significant development because of the multiplication of the tools for strong analysis of textual data. In this field, the main direction of research is semantic classification from distributional analysis. This line has already been largely explored and have the following drawback : (1) clusters obtained with this technique are not significant, (2) clusters regroup heterogeneous linguistic entities, (3) conceptual similarity is a ``neutral’’ link it is however necessary to label links.

The work of this thesis is to propose an alternative to distributional analysis by using linguistic productions which can identify relationships with a high conceptual value. The linguistic productions that we try to identify can be expressed in the form of simple but very diversified lexico-syntactic patterns. To identify these patterns, we have developed the Promethée system. This extracts lexico-syntatic patterns relative to a specific conceptual relation from a expert and precise analysis of corpora. The originality of our method is to project into the corpus term pairs already in relationship in order to extract their different linguistic expressions. The acquisition of lexico-syntactic patterns is incrementally realized through a shallow parser and a classifier where the human interventions are limited to a terminological validation.

Relationships extracted by this technique are useful in automatic construction of thesauri or expert or terminological knowledge bases.  

Informations administratives

Jury
  • Président :
  • M. Noureddine Mouaddib, Professeur (Université de Nantes)
  • Rapporteurs :
  • Mme Violaine Prince, Professeur (Université de Paris 8)
  • M. Pierre Zweigenbaum, Ingénieur et HDR (AP-HP et Université de Paris 6)
  • Examinateurs :
  • M. Alexandre Dikovsky, Professeur (Université de Nantes)
  • M. Benoît Habert, Maître de Conférences HDR (ENS de Fontenay)
  • Directeur de thèse :
  • M. Christian Jacquemin, Maître de Conférences HDR (IUT de Nantes)
Université: Nantes
Discipline: Informatique
Date de soutenance: 08 décembre 1999
Lieu de soutenance: Institut de Recherche en Informatique de Nantes