Variation sémantique en corpus specialisé : Acquisition de relations de synonymie à partir de ressources lexicales

Hamon Thierry

Équipe: Laboratoire d'Informatique de Paris Nord

Contenu

Mots-clés: traitement automatique des langues, terminologie, corpus spécialisés, synonymie, langue de spécialité, ressources lexicales, variation sémantique, graphe
Keywords: natural language processing, terminology, specialized corpora, synonymy, language for special purpose, lexical resources, semantic variation, graph
Résumé
De nombreuses applications dans les domaines de spécialité exploitent des terminologies : consultation de documents, aide à la rédaction, recherche d’informations, indexation contrôlée. La constitution de ces ressources nécessite d’identifier les termes utilisés par les spécialistes du domaine, mais aussi de les structurer dans un réseau terminologique les mettant en relation (hyperonymie, méronymie, synonymie, etc.). Nous nous sommes intéressés à l’acquisition de relations de synonymie entre termes extraits de corpus spécialisés. La relation de synonymie est précieuse pour le terminologue qui doit isoler le terme vedette de ses variantes sémantiques.

Nous avons construit un outil d’aide à la structuration de terminologie : SynoTerm. Celui-ci est basé sur l’exploitation d’informations sémantiques extraites de ressources lexicales (dictionnaire de la langue générale ou des données plus spécialisées). A partir de ces informations, des règles infèrent des relations entre des termes complexes. Les résultats sont ensuite validés par un terminologue.

L’implémentation de ces règles d’inférence soulève des problèmes de représentation des données et d’optimisation. L’utilisation d’un système de gestion de bases de données s’est révélée trop lourde pour les contraintes de la structuration d’une terminologie. Nous proposons donc une nouvelle représentation des termes sous forme de graphe. Des algorithmes efficaces permettent d’obtenir des temps de calcul adaptés à une intervention du terminologue sur les résultats mais aussi de combiner plusieurs ressources lexicales.

L’approche développée dans SynoTerm a été testée dans des conditions réelles d’exploitation. L’utilisation de ressources plus ou moins spécialisées nous a permis de caractériser l’apport des ressources générales et l’intérêt de les combiner à des données très spécialisées. D’autre part, pour guider le travail de validation, nous avons proposé une structuration des relations qui donne au terminologue une vision globale des familles et des classes de relations de synonymie.

Enfin, il s’avère que les mesures classiques d’évaluation, précision et rappel, reflètent imparfaitement l’avis des terminologues sur l’apport des résultats. L’évaluation d’un outil d’aide à la constitution de terminologie doit prendre en compte de multiples paramètres. A partir de ces constatations, nous proposons une grille d’évaluation reflétant son comportement et ses conditions d’exploitation.

Abstract
Terminologies are required by many applications in technical domains. Building these resources is a two-step process which identifies terms used in the domain and structures them by adding relations. Synonymy is useful for the terminologist to isolate a term from its semantic variants. We aim at acquiring the relation on specialized corpora in a terminology structuration aid tool : SynoTerm. Rules infer relations between complex terms by using semantic informations extracted from various types of resource. A terminologist validates resulting relations. Optimization problems and implementation lead us to propose a term representation in a graph. Powerful algorithms reduced complexity in time, getting processing time adapted to terminology structuration constraints and multi-resources use. According to the real-condition use of lexical resources, we characterize the contribution of general resources and the usefulness of their combination with very specialized data. We propose to structure results to lead the terminologist in the validation task. As precision and recall reflect badly the terminologist’s point of view, we propose critera to evaluate several parameter.  

Informations administratives

Jury
  • Henry Boccon-Gibod (Examinateur)
  • Béatrice Daille (Examinatrice)
  • Christophe Fouqueré (Directeur)
  • Benoît Habert (Rapporteur)
  • Adeline Nazarenko (Co-directrice)
  • Jean Véronis (Rapporteur)
Université: Université Paris 13 - Villetaneuse
Discipline: Informatique
Date de soutenance: 19 décembre 2000
Lieu de soutenance: Salle L322 - Institut Galilée - Université Paris Nord