À l'écoute des locuteurs : production participative de ressources langagières pour des langues non standardisées

Alice Millour* et Karën Fort*
*Sorbonne Université, STIH - EA 4509, 28 rue Serpente, 75006 Paris, France
Résumé
Les sciences participatives, et en particulier la production participative (crowdsourcing) bénévole, sont un moyen encore peu exploité de créer des ressources langa- gières pour les langues peu dotées dont suffisamment de locuteurs sont présents sur le Web. Nous présentons ici nos expériences concernant l’annotation en parties du discours pour des langues non standardisées, en l’occurrence l’alsacien et le créole guadeloupéen. Nous dé- taillons la méthodologie utilisée, montrons qu’elle est adaptable à plusieurs langues, puis nous présentons les résultats obtenus. L’analyse des limites de la plateforme d’origine nous a conduites à en développer une nouvelle, qui, outre l’annotation en parties du discours, per- met la création de corpus bruts et d’un lexique de variantes alignées. Les plateformes créées, les ressources langagières, et les modèles de taggers entraînés sont librement disponibles.
Document
Rank
2