Nous avons construit un outil d’aide à la structuration de terminologie : SynoTerm. Celui-ci est basé sur l’exploitation d’informations sémantiques extraites de ressources lexicales (dictionnaire de la langue générale ou des données plus spécialisées). A partir de ces informations, des règles infèrent des relations entre des termes complexes. Les résultats sont ensuite validés par un terminologue.
L’implémentation de ces règles d’inférence soulève des problèmes de représentation des données et d’optimisation. L’utilisation d’un système de gestion de bases de données s’est révélée trop lourde pour les contraintes de la structuration d’une terminologie. Nous proposons donc une nouvelle représentation des termes sous forme de graphe. Des algorithmes efficaces permettent d’obtenir des temps de calcul adaptés à une intervention du terminologue sur les résultats mais aussi de combiner plusieurs ressources lexicales.
L’approche développée dans SynoTerm a été testée dans des conditions réelles d’exploitation. L’utilisation de ressources plus ou moins spécialisées nous a permis de caractériser l’apport des ressources générales et l’intérêt de les combiner à des données très spécialisées. D’autre part, pour guider le travail de validation, nous avons proposé une structuration des relations qui donne au terminologue une vision globale des familles et des classes de relations de synonymie.
Enfin, il s’avère que les mesures classiques d’évaluation, précision
et rappel, reflètent imparfaitement l’avis des terminologues sur
l’apport des résultats. L’évaluation d’un outil d’aide à la
constitution de terminologie doit prendre en compte de multiples
paramètres. A partir de ces constatations, nous proposons une grille
d’évaluation reflétant son comportement et ses conditions
d’exploitation.
Abstract
Terminologies are required by many applications in technical domains.
Building these resources is a two-step process which identifies terms
used in the domain and structures them by adding relations. Synonymy
is useful for the terminologist to isolate a term from its semantic
variants. We aim at acquiring the relation on specialized corpora in a
terminology structuration aid tool : SynoTerm. Rules infer relations
between complex terms by using semantic informations extracted from
various types of resource. A terminologist validates resulting
relations. Optimization problems and implementation lead us to propose
a term representation in a graph. Powerful algorithms reduced
complexity in time, getting processing time adapted to terminology
structuration constraints and multi-resources use. According to the
real-condition use of lexical resources, we characterize the
contribution of general resources and the usefulness of their
combination with very specialized data. We propose to structure
results to lead the terminologist in the validation task. As precision
and recall reflect badly the terminologist’s point of view, we propose
critera to evaluate several parameter.