Traiter les documents XML avec les « contextes de lecture »

Xavier Tannier*
*Centre de recherche Xerox de Grenoble; 6, chemin de Maupertuis; 38240 Meylan; xavier.tannier@xrce.xerox.com
Résumé
Le langage XML autorise, par sa souplesse de structuration, des manipulations du contenu qui créent parfois des ruptures arbitraires dans le flot naturel du texte. Ces caractéristiques soulèvent des difficultés lorsque l’on souhaite mettre en œuvre des techniques d’analyse automatique du contenu des documents XML. Cet article présente cette problématique et y répond, sur le plan théorique, avec l’introduction du concept de contexte de lecture, puis sur le plan pratique, avec une classification automatique des balises XML et la présentation d’un outil générique de gestion des contenus XML.
Paru dans