Colloque

Extraction endogène d'une structure de document

Romain Brixtel

Membre a labase

Romain Brixtel

Résumé du colloque

Nous présentons une méthode de structuration hiérarchique de document xhtml. L'utilisation de xhtml comme simple outil de mise en forme de document est encore très fréquente. Cette norme ne permet pas de séparer la structure physique et logique d'un document. Nous proposons une méthode de détection d'une structure hiérarchique de document basée sur l'arbre xhtml du document, ainsi que sur la répartition des différentes mises en formes matérielles (mfm) qui le composent. La première étape consiste en une segmentation du document. Cette segmentation utilise les connaissances extraites de l'arbre xhtml du document analysé via les balises de type bloc et en ligne utilisées sur des éléments visibles du document. Chaque segment est ensuite caractérisé par son rendu via l'ensemble des propriétés typographiques et dispositionnelles de mfm appliquées aux éléments visibles du segment. Ces mfm de segment permettent de différencier les segments saillants (hiérarchisant la structure du document) des segments non-saillants (qui n'incluent pas sur cette structure). La détection de structure ne se base pas sur une caractérisation des mfm (une taille de police de caractères particulière ne définit pas a priori les titres), elle utilise la répartition des segments de différentes mfm. La méthode appliquée permet de détecter la même structure sur deux documents ayant utilisé un ensemble de mfm différentes. À partir de cette séquence, nous construisons une structure hiérarchique.