Les corpus sont de plus en plus utilisés dans la lexicographie, en particulier pour les dictionnaires à utilisation pédagogique. Bien que de nombreuses études basées sur des corpus spécialisés aient été entreprises, les résultats sont obérés par la difficulté à définir clairement la représentativité de tels corpus. Les Communautés de Discours (C.D.) définies par Swales offrent un modèle intéressant puisqu’elles sont définies par rapport à leurs membres. Au lieu de faire appel à la notion abstraite de "représentativité", le contenu peut être justifié comme étant "représentatif" d’une communauté définissable.
Pour exploiter un corpus, il est nécessaire de le baliser en SGML afin de retenir les éléments importants de l’aspect physique des textes publiés et de souligner les éléments à analyser. Notre corpus a été balisé suivant les recommandations de la TEI. L’interprétation du balisage est proposée comme norme minimale pour le balisage de ce genre de corpus.
L’étude exploite surtout la notion distributionnelle de collocation comme facteur de cohérence textuelle. Les différentes théories actuelles de collocation sont illustrées avant de développer une définition plus textuelle des collocations et d’introduire les réseaux de collocations. La mesure statistique d’information mutuelle est employée pour extraire les réseaux d’un corpus sous-divisé par thème. Dans un corpus balisé selon la TEI, la balise
Abstract
Corpora have become increasingly used in lexicography, in particular for general purpose pedagogical lexicography. Whilst numerous studies of specialised corpora have been undertaken, the results are hampered by the difficulty of defining representativity in such a corpus. The Discourse Community as defined by John Swales is adopted as a suitable corpus model since the field is defined by its members. Selection of texts is carried out following set criteria in conjunction with members of the community rather than by arbitrary statistical methods. In this way, rather than appealing to the illusive notion of ’representativity’, the content can be justified as being ’representative’ of a definable community.
This corpus is annotated following the Text Encoding Initiative guidelines, each text is regarded as an individual entity rather than a constituent of a corpus which explains the use of the TEI as opposed to the Corpus Encoding Standard. The mark-up interpretation is given as a minimal standard for this type of corpus.
The phenomenon of collocation is discussed as a powerful tool in textual coherence The different prevalent theories of collocation are introduced with examples from the BIVEG corpus before moving to a more textual definition of collocation developing the theory of collocational networks. The statistical measure of mutual information is used in the extraction of networks from the thematically subdivided corpus. The
The ultimate outcome will be an electronic specialised pedagogical dictionary, the corpus is built exclusively from the genre to be demonstrated in the dictionary, the scientific research article.