Robustesse des systemes de TAL

Cette journée d’études vise à réunir les collègues s’intéressant à la robustesse des systèmes de TAL sur des données « non-standards ». Par données non-standard nous désignons des données présentant des variations vis-à-vis d’un certain attendu en terme d’état de langue
(variation de la langue en diachronie, variations régionales, variation dans l’ordre des mots, code-switching, user generated content,
orthographe inconsistante, données accidentellement bruitées suite à un pré-traitement, données incomplètes, présence d’un vocabulaire de
domaine spécialisé...).

L’objectif de cette journée est double :

  • documenter les cas pratiques dans lesquels les systèmes de TAL existants se sont révélés peu fiables voir inutilisables, par exemple, mais sans y être limité, dans le domaine des humanités numériques ;
  • documenter les solutions existantes, par exemple, mais sans y être limité, pour les systèmes fondées sur des méthodes d’apprentissage automatique.
En bref, nous espérons que cette journée permettra d’échanger sur la recherche en TAL et de ses applications en dehors des « benchmarks »
standards.

Les communications sollicitées concernent les thématiques suivantes, sans y être limitées pour autant :
  • évaluation et identification des phénomènes linguistiques problématiques pour les modèles neuronaux et autres systèmes de TAL ;
  • analyse et corrections de la propagation des erreurs dans les systèmes en cascade ;
  • retours d’expérience sur l’utilisation de systèmes de TAL qui se sont révélés non fonctionnels sur un type de données particulier ;
  • construction de jeux de données permettant d’évaluer la robustesse aux variations linguistiques ;
  • augmentation artificielle des données pour améliorer la robustesse des modèles ;
  • adaptation hors domaine ou apprentissage avec des domaines peu représentés dans les données.

Les travaux portant sur d’autres langues que le français sont les bienvenus.

Les propositions de communications orales sont attendues avant le 23 septembre 2022 30 septembre 2022 sous la forme d'un résumé de 2 pages maximum (hors références, aucune feuille de style n'est imposée).

La soumission se fera via easychair : https://easychair.org/my/conference?conf=robustal22

Dates importantes :

  • Soumission des résumés : 30 septembre 2022
  • Notification aux auteurs et autrices : mi ou fin octobre 2022
  • Date de la journée  : 25 novembre 2022
  • Lieu : Maison de la recherche, Paris

Présentations invitées :

  • Emanuela Boros (L3I, La Rochelle Université) : Reconnaissance d'entités nommées : des documents modernes aux documents historiques, des documents propres aux documents bruyants
  • Djamé Seddah (ALMANACH, INRIA) : To be announced

Organisation :

Date
25 November 2022
Lieu

Maison de la recherche (amphithéâtre Molinié)
28 Rue Serpente
75006 Paris
France

E-mail de contact
gael.lejeune@sorbonne-universite.fr
caio.corro@limsi.fr
Organisateur(s)
Gaël Lejeune
Caio Corro