Transformations d'Arbres XML avec des Modèles Probabilistes pour l'Annotation

Résumé : Cette thèse traite de l'apprentissage supervisé de transformations d'arbres XML. Le langage XML permet de décrire des données sous forme d'arbres dont la structure est définie par un schéma. Il est par conséquent devenu le standard en termes d'échanges de données, que ce soit sur le Web ou entre plusieurs applications. Toutefois, les documents XML peuvent avoir des structures très variables. La grande variété de ces structures nécessite alors d'être capable de transformer de tels arbres. Nous proposons d'effectuer de telles transformations d'arbres XML en annotant les arbres d'entrée, c'est-à-dire en associant un label à chacun de ses noeuds, la sémantique associée aux labels permettant de transformer l'arbre.
Afin d'apprendre à effectuer ces transformations, nous adaptons donc dans un premier temps au cas des arbres XML le modèle des champs aléatoires conditionnels ou Conditional Random Fields (CRF). Les CRFs sont un modèle graphique non dirigé conditionnel pour l'annotation : ils modélisent la probabilité conditionnelle d'une annotation sachant une observation. Ils ont, jusqu'à présent, été essentiellement utilisés dans le cadre de tâches d'annotation de séquences, à la fois dans le domaine de l'extraction d'informations ou en traitement automatiques des langues naturelles. Notre adaptation des CRFs au cas de l'annotation d'arbres XML porte à la fois sur le modèle de dépendances et sur les algorithmes d'inférence exacte (recherche de la meilleure annotation) et d'apprentissage.
De plus, nous proposons deux méthodes d'amélioration de la complexité de ces algorithmes afin de permettre l'utilisation des champs aléatoires conditionnels dans le cadre d'applications à grande échelle. Ces méthodes s'appuient toutes deux sur l'utilisation des connaissances du domaine. La première consiste en l'intégration de contraintes sur l'annotation. Celles-ci viennent restreindre l'espace des annotations possibles d'un arbre en interdisant des configurations de labels. La seconde technique d'amélioration de la complexité que nous proposons consiste en l'approximation d'un CRF par la composition de plusieurs CRFs de complexité moindre, définis sur des sous-parties de l'alphabet des labels.
Ces travaux ont été validés par diverses expériences sur des données artificielles et réelles, montrant ainsi non seulement la qualité des transformations effectuées à l'aide de nos méthodes, mais aussi leur intérêt dans des tâches réelles. Ces bons résultats nous ont conduit à réaliser une application de génération automatique de flux RSS à partir de pages Web. Celle-ci permet à son utilisateur d'apprendre un générateur de flux RSS en annotant une ou plusieurs pages d'un site Web. Ce générateur consiste en un CRF qui annote les pages Web de ce site de façon à transformer l'arbre XHTML en un arbre XML au format RSS. Il permet alors de créer automatiquement des flux RSS pour toute autre page du même site. Cette application est disponible à l'adresse suivante : http://r2s2.futurs.inria.fr/
Document type :
Theses
Complete list of metadatas

Cited literature [13 references]  Display  Hide  Download

https://tel.archives-ouvertes.fr/tel-00342649
Contributor : Florent Jousse <>
Submitted on : Thursday, November 27, 2008 - 8:32:07 PM
Last modification on : Thursday, February 21, 2019 - 10:52:49 AM
Long-term archiving on : Thursday, October 11, 2012 - 12:10:10 PM

Identifiers

  • HAL Id : tel-00342649, version 1

Citation

Florent Jousse. Transformations d'Arbres XML avec des Modèles Probabilistes pour l'Annotation. Autre [cs.OH]. Université Charles de Gaulle - Lille III, 2007. Français. ⟨tel-00342649⟩

Share

Metrics

Record views

807

Files downloads

265