La récupération de ressources dictionnairiques, l’aspect passif de l’accumulation, consiste à convertir une ressource vers une forme computationnelle structurée, ce qui est primordial pour toute future exploitation. La difficulté vient de la complexité inhérente du dictionnaire, de la probabilité d’erreurs, de l’hétérogénéité des ressources, etc. Après une étude des travaux précédents, et d’importantes expérimentations, nous avons conçu et réalisé RÉCUPDIC, un système spécialisé pour la récupération dictionnairique, qui se compose de méthodes et d’outils puissants et faciles à utiliser. Il s’est montré efficace et pratique, lors de la récupération d’une grande quantité de ressources de diverse complexité (environ 33 ressources, soit au total 1,7 millions d’articles dans 12 langues).
La production de nouveaux ensembles lexicaux est l’aspect actif de l’accumulation : il s’agit de fabriquer automatiquement des unités lexicales organisées selon de nouvelles structures linguistiques, en masse, et à bon marché. Il ne semble pas qu’une approche générique à ce problème ait été proposée dans des travaux antérieurs. Notre système PRODUCDIC a été conçu et implémenté pour spécifier et réaliser des processus de production de façon générique et efficace. Comme résultat d’expérimentation, 12 « brouillons de dictionnaire » ont été fabriqués, avec un total de plus de 540 000 articles.
Nous élaborons ensuite le concept d’accumulation en ligne : il s’agit de
fabriquer des unités lexicales à la demande. Nous proposons aussi plusieurs
niveaux d’abstraction pour la notion d’ensemble lexical. Cela nous permet
de proposer un modèle d’organisation dynamique d’un système lexical.
Abstract
This Ph.D. dissertation studies the accumulation of structured
lexical sets from heterogeneous multilingual computerized dictionary
resources, and proposes generic techniques for such accumulation.
Acquisition of dictionary resources, the passive aspect of accumulation, consists in converting a resource into a structured computational form, which is essential for all future exploitation of the resource. The difficulty comes from the inherent complexity of dictionaries, the probability of errors, the heterogeneity of the resources, etc. After study of previous work and extensive experimentation, we have designed and implemented RÉCUPDIC, a system specialized for dictionary acquisition, which contains powerful and easy-to-use methods and tools. It has proved efficient and practical, and has helped us accumulate numerous resources with varying degrees of complexity (about 33 resources, with a total of 1.7 million entries in 12 languages).
Production of new lexical sets is the active aspect of accumulation, through which lexical units of new linguistic structures are produced automatically, en masse, and cheaply. Apparently, no generic solution has yet been proposed for this problem. Our system PRODUCDIC has been designed and implemented for specifying and carrying out production processes generically and efficiently. As the results of our experiments, 12 dictionary drafts were produced, with a total of more than 540 000 entries.
We then develop the concept of on-line accumulation, in which lexical units
are supplied when required. We also introduce several levels of abstraction
for the notion of lexical sets. This permits us to propose a dynamic
organization model for lexical systems.