Robustesse des systemes de TAL

Inscription

Si vous souhaitez participer à cette journée, l'inscription est gratuite mais obligatoire. Un buffet (gratuit) sera proposé le midi pour celles et ceux qui souhaite manger sur place. La journée durera de 9h à 17h30 environ, le programme scientifique est disponible ci-dessous (les horaires précis seront bientôt annoncés).

Lien pour l'inscription : https://framaforms.org/journee-detudes-robustal-inscription-gratuite-mais-obligatoire-1666623659

Description

Cette journée d’études vise à réunir les collègues s’intéressant à la robustesse des systèmes de TAL sur des données « non-standards ». Par données non-standard, nous désignons des données présentant des variations vis-à-vis d’un certain attendu en terme d’état de langue
(variation de la langue en diachronie, variations régionales, variation dans l’ordre des mots, code-switching, user generated content,
orthographe inconsistante, données accidentellement bruitées suite à un pré-traitement, données incomplètes, présence d’un vocabulaire de
domaine spécialisé...).

L’objectif de cette journée est double :

  • documenter les cas pratiques dans lesquels les systèmes de TAL existants se sont révélés peu fiables voir inutilisables, par exemple, mais sans y être limité, dans le domaine des humanités numériques ;
  • documenter les solutions existantes, par exemple, mais sans y être limité, pour les systèmes fondées sur des méthodes d’apprentissage automatique.
En bref, nous espérons que cette journée permettra d’échanger sur la recherche en TAL et de ses applications en dehors des « benchmarks »
standards.

Les communications sollicitées concernent les thématiques suivantes, sans y être limitées pour autant :
  • évaluation et identification des phénomènes linguistiques problématiques pour les modèles neuronaux et autres systèmes de TAL ;
  • analyse et corrections de la propagation des erreurs dans les systèmes en cascade ;
  • retours d’expérience sur l’utilisation de systèmes de TAL qui se sont révélés non fonctionnels sur un type de données particulier ;
  • construction de jeux de données permettant d’évaluer la robustesse aux variations linguistiques ;
  • augmentation artificielle des données pour améliorer la robustesse des modèles ;
  • adaptation hors domaine ou apprentissage avec des domaines peu représentés dans les données.

Les travaux portant sur d’autres langues que le français sont les bienvenus.

Les propositions de communications orales sont attendues avant le 23 septembre 2022 30 septembre 2022 sous la forme d'un résumé de 2 pages maximum (hors références, aucune feuille de style n'est imposée).

La soumission se fera via easychair : https://easychair.org/my/conference?conf=robustal22

Dates importantes

  • Soumission des résumés : 30 septembre 2022
  • Notification aux auteurs et autrices : mi ou fin octobre 2022
  • Date de la journée  : 25 novembre 2022
  • Lieu : Maison de la recherche, Paris

Présentations invitées

  • Emanuela Boros (L3I, La Rochelle Université) : Reconnaissance d'entités nommées : des documents modernes aux documents historiques, des documents propres aux documents bruyants
  • Djamé Seddah (ALMANACH, INRIA) : Le Syndrome du Jabberwocky à l’ère des larges modèles de langues et autres BERTeries : analyse morpho-syntactique en environnement hostile

Programme

Matinée
- Présentation invité : Le Syndrome du Jabberwocky à l’ère des larges modèles de langues et autres BERTeries : analyse morpho-syntactique en environnements hostiles (Djamé Seddah)
- Contributions :
  * Clustering d'entités nommées issues de sorties OCR bruitées : une voie vers la désambiguïsation morphologique automatique ? (Caroline Koudoro-Parfait)
  * Robustesse de systèmes de traductions neuronaux pour la traduction anglais-français de syntagmes nominaux complexes en langues de spécialité (Maud Bénard)
  * Modèles préservant la confidentialité des données par mimétisme pour la reconnaissance d'entités nommées en français (Nesrine Bannour, Perceval Wajsbürt, Bastien Rance, Xavier Tannier et Aurélie Névéol)
  * Le rapport signal/bruit dans les corpus tirés du web (Adrien Barbaresi et Gaël Lejeune)

Après-midi
- Présentation invité : Reconnaissance d'entités nommées : des documents modernes aux documents historiques, des documents propres aux documents bruyants (Emanuela Boros)
- Contributions :
  * Améliorer la qualité de l’OCR dans la TGB pour la tâche de REN (Ljudmila Petkovic)
  * Impact of Word Splitting on the Semantic Similarity between Contextualized Word Representations (Aina Garí Soler, Matthieu Labeau et Chloé Clavel)
  * Portabilité des algorithmes de phénotypage: le cas de la polyarthrite rhumatoïde dans le dossier patient informatisé en français (Thibaut Fabacher, Erik André Sauleau, Noémie Leclerc Du Sablon, Hugo Bergier, Jacques Eric Gottenberg, Adrien Coulet et Aurélie Névéol)
  * Transversalité des méthodes de correction post-ASR et de correction post-OCR (Solveig Poder, Cyrille Suire et Antoine Doucet)
  * La robustesse de la traduction neuronale : les systèmes de traduction automatique neuronale à l’épreuve de la reproductibilité de l’expérience (Guillaume Wisniewski, Lichao Zhu, Jean-Baptiste Yunès et Nicolas Ballier)

Organisation

Date
25 novembre 2022
Lieu

Maison de la recherche (amphithéâtre Molinié)
28 Rue Serpente
75006 Paris
France

E-mail de contact
gael.lejeune@sorbonne-universite.fr
caio.corro@limsi.fr
Organisation
Gaël Lejeune
Caio Corro
Document
pseudotimestamp
20221125