De l’annotation intégrale à l’analyse des réseaux de personnages : un modèle pour la REN dans les textes littéraires en français

Motasem Alrahabi*, Arthur Amalvy**, Vincent Labatut** et Perrine Maurel*
*Sorbonne Université, ObTIC
**Avignon Université, Laboratoire Informatique d’Avignon – UPR 4128
Résumé
Les corpus textuels sont au cœur des humanités numériques, mais leur exploitation à grande échelle reste limitée par l’absence d’outils adaptés, notamment pour la reconnaissance d’entités nommées. Pour y remédier, nous présentons un corpus de sept romans français du XIXe siècle, annotés intégralement. Cette ressource permet d’entraîner et d’évaluer des outils robustes aux spécificités littéraires. Nous proposons un modèle de REN basé sur CamemBERT, performant sur ce type de textes, et montrons son intérêt via l’extraction de réseaux de personnages, ouvrant de nouvelles perspectives sur les dynamiques narratives. Les ressources sont librement accessibles en ligne.
Résumé (en anglais)
Textual corpora are central to Digital Humanities, but their large-scale use remains limited by the lack of suitable tools, particularly for Named Entity Recognition. To address this, we present a fully annotated corpus of seven 19th-century French novels. This resource enables the training and evaluation of tools robust to literary specificities. We propose a CamemBERT-based NER model, effective on such texts, and demonstrate its relevance through character network extraction, opening new perspectives on narrative dynamics. All resources are freely available online.
Paru dans
Document
Rank
2