Articulation des traitements en TAL

Sous-titre
Principes méthodologiques et mise en œuvre dans la plate-forme LinguaStream
Antoine Widlöcher*,** and Frédérik Bilhaut*,**
*GREYC, Université de Caen
**CNRS UMR 6072; Boulevard du Maréchal-Juin; B.P. 5186; F-14032 Caen Cedex; antoine.widlocher@info.unicaen.fr, frederik.bilhaut@info.unicaen.fr
Résumé
Différents travaux en TAL font apparaître la nécessité d’articuler, au sein de chaînes complexes, divers traitements mettant en jeu une pluralité d’objets linguistiques et de méthodes d’analyse. La plate-forme LinguaStream propose une architecture et un ensemble d’outils visant à faciliter la mise en œuvre de tels « assemblages » : modèles génériques d’analyse (grammaires, transducteurs, projection de lexiques...), ponts vers des modules externes (analyseurs morphologiques ou syntaxiques...), outils lexicométriques, outil de visualisation des annotations, etc. La conception de LinguaStream et son exploitation dans différents projets, nous ont conduits à formuler différents principes méthodologiques que nous tentons ici d’expliciter. Nous décrivons ensuite succinctement trois applications développées avec LinguaStream, selon cette méthodologie : analyse de cadres de discours, recherche d’information géographique et segmentation thématique par des méthodes de fouille de texte.