Journée d'études AFIA-ATALA : Technologies linguistiques pour les langues peu dotées

Le collège TLH (Traitement du Langage Humain) de l’Association Française pour l'Intelligence Artificielle (AFIA), l’Association Française pour le Traitement Automatique des Langues (ATALA) et l'Association Francophone pour la Communication Parlée (AFCP) organisent conjointement une journée d'étude sur les technologies linguistiques pour les langues peu dotées avec le soutien de l’Association Française pour la Communication Parlée (AFCP).

Elle aura lieu à Paris, le vendredi 12 décembre 2025, au campus des cordeliers. La participation à la journée sera gratuite, mais l'inscription sera obligatoire.

Appel à contributions

Aujourd'hui, la plupart des technologies et recherches en traitement automatique des langues reposent sur l'exploitation de corpus dans quelques langues majoritaires. Même les approches dites "multilingues" qui exploitent des centaines de langues différentes, restent biaisées envers les langues majoritaires. Ainsi la recherche sur le développement de modèles de traitement du langage spécifiques aux langues minoritaires est aujourd'hui très importante.

Cette journée d’étude vise à réunir les chercheuses et chercheurs travaillant sur les applications
du traitement automatique des langues et de l'intelligence artificielle au contexte des langues peu dotées. Les communications pourront porter entre autres sur les thématiques suivantes :

  • Développement de technologies linguistiques spécifiques (traducteurs automatiques, systèmes d'ASR…).
  • Développement de ressources (corpus, lexiques…).
  • Problématiques sociales liées à l'IA dans des contextes de minorisation des langues.
  • Apprentissage automatique dans un contexte de frugalité.
  • Intégration et accès aux technologies linguistiques pour les communautés linguistiques minorisées.
  • Applications du TAL à la linguistique computationnelle pour des langues peu dotées.
  • Problématiques liées aux aspects phonétiques et prosodiques des langues non écrites (orales et signées).

Les propositions de communications sont attendues avant le 29 septembre sous la forme d’un résumé de une à deux pages, en français ou en anglais. En cas d'acceptation, elles donneront lieu soit à une communication orale, soit à un poster, en fonction des préférences de leurs auteur⋅ices et des contraintes imposées par l'organisation.

Bourses jeunes chercheur⋅euses

Des bourses de mobilités peuvent être accordées sur demande pour les jeunes chercheur⋅euses.
Formulaire de demande: https://www.afcp-parole.org/demande-de-bourse/
Contact : christophe.savariaux@gipsa-lab.grenoble-inp.fr

Soumission des abstracts

https://openreview.net/group?id=atala.org%2FAFIA-ATALA%2F2025%2FTLLPD

Formulaire d'inscription

https://framaforms.org/inscription-je-afia-atala-technologies-linguistiques-pour-les-langues-peu-dotees-1757518732

Dates importantes

  • Soumission des résumés : 15 septembre 2025 29 septembre 2025
  • Notification aux auteurs et autrices : 6 octobre 2025 16 octobre 2025
  • Journée : 12 décembre 2025

Contacts

Programme

  • 08:30 Accueil
  • 09:00 Introduction
  • 09:10 Présentation invité : Philippe Boula de Mareüil
  • 09:50 Pause
  • 10:05 Présentations
    •   « From Errors to Insights: Probing Phonological Knowledge in Low-Resource ASR to Support Documentary Linguistics and Analysis of Neural Speech Model » Eli Stafford
    •   « La synthèse de la parole pour les langues faiblement dotées : pourquoi et comment ? » Imen    Laouirine, Ana Montalvo, Meysam Shamsi, Sarah Samson Juan, Mohammad Mohammadamini, Vadrianey Asas, Aghilas Sini, Marie Tahon et Sankar Mukherjee
    •   « Reconnaissance automatique de la parole en wolof dans un contexte de veille sanitaire : premiers résultats et perspectives » Dan Hou, Damien Nouvel et Maguelonne Teisseire
    •   « Fine-Tuning Whisper for Low-Resource Languages » Malek Yaich, Sam Bigeard et Slim Ouni
    •   « Scaling HuBERT for African Languages: From Base to Large and XL » Antoine Caubrière et Elodie Gauthier
  • 12:10 Pause déjeuner et posters
  • 14:00 Présentation invité : Emmanuel Schang
  • 14:40 Pause
  • 15:00 Présentations
    •   « LaboSignes : vers une IA participative pour la reconnaissance automatique de la Langue des Signes Française » Jules Françoise, Julie Lascar, Cyril Verrechia, Sidonie Minodier, Michèle Gouiffès et Annelies Braffort
    •   « Vers le traitement automatique des signaux acoustiques, électroglottographiques et de larynx tracking pour l'étude de l'intonation dans une langue tonale : étude pilote sur le vietnamien » Minh-Chau Nguyen et Thi-Thuy-Hien Tran
    •   « Cross-modal lightweight alignement with HGNN for low resource languages. » Yannick Yomie Nzeuhang, Marie Tahon et Paulin Metalgia Yonta
    •   « Grammaires non contextuelles pour l'expansion de corpus nahuatl » Juan-José Guzmán-Landa, Juan-Manuel Torres-Moreno et Graham Ranger
    •   « Applying Low-Resource NLP Methods to a High-Resource Language: Orthographic Variation in Ancient Greek Manuscripts » Sophie Robert-Hayek
  • 17:05 Fin de la journée


Posters :

  • « Collecte de Données par Web Scraping : quelle qualité pour les langues peu dotées ? » Gaël Lejeune, Marceau Hernandez
  • « Evaluating Speech Translation for Spoken Persian: Cascade vs. End-to-End Models » Behnoosh Namdarzadeh
  • « YAR Building an app for and with the speaking community » Alice Millour, Loïc Grobol et Mélanie Jouitteau
  • « Enjeux du traitement d'un corpus en moyen arabe au regard de l'aspect multilingue » Julien Bezançon
  • « Leveraging Speech LLMs for Audio-based Lexical Retrieval in Dictionaries: the Case of Audio Queries in WhatTCSay, a Dictionary app for Teochew Language » Siman Chen, Ilaine Wang, Maxime Fily, Pierre Magistry
  • « Learn2Sum-LowRes : Vers un résumé automatique personnalisé pour les langues peu dotées basé sur le topic modeling et l’apprentissage frugal » Amal Beldi
  • « ASR et TTS ou ASR vs. TTS pour la traduction de la parole de bout en bout en conditions de faibles ressources » Mohammad Mohammadamini, Marie Tahon
  • « Synthétiser des données lorsque peu de données réelles sont disponibles : comparaison d'approches » Maxime Le Coz, Isabelle Ferrané, Thomas Pellegrini
  • « L’effet du « prompting » sur la traduction des dialectes arabes transcrits en Arabizi » Perla Al Almaoui, Pierrette Bouillon, Simon Hengchen
  • « Extraction d’information spatiale dans des textes en langue arabe liés à la veille épidémiologique » Fatima Ezzahra El Houbri, Najlae Idrissi, Mathieu Roche, Sarah Valentin
  • « Measuring the reliability of LLM Annotations in albanian political discourse » Ueda Qorrasi
  • « Beyond WER: Probing Whisper's Sub‑token Decoder Across Diverse Language Resource Levels » Siyu Liang, Nicolas Ballier, Gina-Anne Levow, Richard Wright
  • « Progresser dans l'application des outils de TAL pour la documentation linguistique: extensions Elan et outil ligne de commande » Clara Rosina Fernandez, Guillaume Wisniewski, Severine Guillaume
  • « Retour d'expérience sur la création d’un corpus en occitan à partir de textes produits par des utilisateurs » Oriane Nédey, Juliette Janès, Thibault Clérice, Rachel Bawden, Benoît Sagot
  • « Vers une transcription (semi-)automatique des langues peu dotées: l’exemple du yiddish et du wan » Valentina Fedchenko, Eric Jordan
Date
12 décembre 2025
Lieu

Amphithéâtre Farabeuf, Campus des cordeliers, 15 rue de l'École-de-médecine, Paris
Paris
France