Articulation des traitements en TAL

Principes méthodologiques et mise en œuvre dans la plate-forme LinguaStream

Antoine Widlöcher, Frédérik Bilhaut
GREYC, Université de Caen, CNRS UMR 6072
Boulevard du Maréchal-Juin
B.P. 5186
F-14032 Caen Cedex
Antoine.Widlocher@info.unicaen.fr, Frederik.Bilhaut@info.unicaen.fr

 

Différents travaux en TAL font apparaître la nécessité d’articuler, au sein de chaînes complexes, divers traitements mettant en jeu une pluralité d’objets linguistiques et de méthodes d’analyse. La plate-forme LinguaStream propose une architecture et un ensemble d’outils visant à faciliter la mise en œuvre de tels « assemblages » : modèles génériques d’analyse (grammaires, transducteurs, projection de lexiques...), ponts vers des modules externes (analyseurs morphologiques ou syntaxiques...), outils lexicométriques, outil de visualisation des annotations, etc. La conception de LinguaStream et son exploitation dans différents projets, nous ont conduits à formuler différents principes méthodologiques que nous tentons ici d’expliciter. Nous décrivons ensuite succinctement trois applications développées avec LinguaStream, selon cette méthodologie : analyse de cadres de discours, recherche d’information géographique et segmentation thématique par des méthodes de fouille de texte.