Transcription automatique et segmentation thématique de livres d’heures manuscrits

Béatrice Daille*, Amir Hazem*, Christopher Kermorvant***,****, Martin Maarand***, Marie-Laurence Bonhomme***, Dominique Stutzmann**, Jacob Currie** and Christine Jacquin*
*LS2N - Université de Nantes, Nantes
**Institut de recherche et d’histoire des textes (IRHT), Paris
***TEKLIA, Paris
****LITIS, Université de Rouen-Normandie, Rouen
Résumé
Les livres d’heures sont le plus grand best-seller de tout le Moyen Âge, avec plus de
10 000 témoins conservés. Incontournables pour comprendre l’univers mental médiéval, leurs
textes ont été très peu étudiés. Ils sont très longs et ont une structure complexe correspondant à
l’organisation liturgique médiévale et la prière quotidienne de l’office. Cet article décrit les méthodes
et les traitements automatiques mis en oeuvre sur les livres d’heures : la reconnaissance
de l’écriture manuscrite et la segmentation adaptées à ces manuscrits. L’approche de segmentation
semi-supervisée proposée tire profit de la constitution spécifique du manuscrit pour mieux
retrouver leur structure malgré le bruit engendré par la reconnaissance de l’écriture.
Résumé (en anglais)
Books of Hours are the number one best seller of the Middle Ages, with more than
10 000 copies preserved. They are a crucial witness to the medieval mindset, but their textual
contents have been very scarcely studied. They are very long and offer a complex hierarchical
entangled structure, with several characteristics specific to medieval daily Prières office. This
paper presents the methods and processing applied to books of hours: handwritten text recognition
and text segmentation adapted to medieval manuscripts. We propose a weak supervised
approach, based on the overarching structure of the manuscripts, that provides the first stateof-
the-art results on transcript texts and despite remaining errors for this new challenging task.