Traiter les documents XML avec les « contextes de lecture »

Xavier Tannier
Centre de recherche Xerox de Grenoble
6, chemin de Maupertuis
38240 Meylan
Xavier.Tannier@xrce.xerox.com
 
Le langage XML autorise, par sa souplesse de structuration, des manipulations du contenu qui créent parfois des ruptures arbitraires dans le flot naturel du texte. Ces caractéristiques soulèvent des difficultés lorsque l’on souhaite mettre en œuvre des techniques d’analyse automatique du contenu des documents XML. Cet article présente cette problématique et y répond, sur le plan théorique, avec l’introduction du concept de contexte de lecture, puis sur le plan pratique, avec une classification automatique des balises XML et la présentation d’un outil générique de gestion des contenus XML.