Information Retrieval of Text, Structure and Sequential Data in Heterogeneous XML Document Collections

Eugen Popovici

Résumé

Nowadays digital documents represent a complex and heterogeneous mixture of text, structure, meta-data and multimedia information. The XML description language is now the standard used to represent such documents in digital libraries, product catalogs, scientific data repositories and across the Web. The management of semi structured data requires the development of appropriate indexing, filtering, searching and browsing methods and tools. In particular, the filtering and searching functions of the retrieval systems should be able to answer queries having an incomplete, imprecise or even erroneous knowledge about both the structure and the content of the XML documents. Moreover, these functions should maintain an algorithmic complexity compatible with the complexity of the data while maintaining the scalability of the system. In this thesis, we explore methods for managing and searching collections of heterogeneous multimedia XML documents. We focus on the flexible searching of structure, text, and sequential data embedded in heterogeneous XML document databases. Based on the structural part of the XML documents, we propose a flexible model for the representation, indexing and retrieval of heterogeneous types of sequential data. The matching mechanism simultaneously exploits the structural organization of the sequential/textual data as well as the relevance and the characteristics of the unstructured content of the indexed documents. We also design and evaluate methods both for the approximate matching of structural constraints in an XML Information Retrieval (IR) framework and for the detection of best entry points to locate given topics in XML Documents. Finally, we explore the use of dedicated hardware architecture to accelerate the most expensive processing steps of our XML IR application.

Les documents numériques sont aujourd'hui des données complexes qui intègrent d'une manière hétérogène des informations textuelles, structurelles, multimédia ainsi que des méta-données. Le langage de balisage générique XML s'est progressivement imposé comme support privilégié non seulement pour l'échange des données mais aussi pour leur stockage. La gestion des documents stockés sous les formats XML nécessite le développement de méthodes et d'outils spécifiques pour l'indexation, la recherche, le filtrage et la fouille des données. En particulier, les fonctions de recherche et de filtrage doivent prendre en compte des requêtes disposant de connaissances incomplètes, imprécises, parfois même erronées sur la structure ou le contenu des documents XML. Ces fonctions doivent par ailleurs maintenir une complexité algorithmique compatible avec la complexité des données et surtout avec leur volume toujours en forte croissance, ceci pour assurer le passage à l'échelle des solutions informatiques. Dans cette thèse, nous étudions des méthodes et développons des outils pour indexer et rechercher des informations multimédia hétérogènes stockées dans des banques de documents XML. Plus précisément, nous abordons la question de la recherche par similarité sur des données composites décrites par des éléments structurels, textuels et séquentiels. En s'appuyant sur la partie structurelle des documents XML, nous avons défini un modèle de représentation, d'indexation et d'interrogation flexible pour des types hétérogènes de données séquentielles. Les principes que nous développons mettent en oeuvre des mécanismes de recherche qui exploitent simultanément les éléments des structures documentaires indexées et les contenus documentaires non structurés. Nous évaluons également l'impact sur la pertinence des résultats retournés par l'introduction de mécanismes d'alignement approximatif des éléments structurels. Nous proposons des algorithmes capables de détecter et de suggérer les « meilleurs points d'entrée » pour accéder directement à l'information recherchée dans un document XML. Finalement, nous étudions l'exploitation d'une architecture matérielle dédiée pour accélérer les traitements les plus coûteux du point de vue de la complexité de notre application de recherche d'information structurée. v

Information Retrieval of Text, Structure and Sequential Data in Heterogeneous XML Document Collections

Recherche et filtrage d'information multimédia (texte, structure et séquence) dans des collections de documents XML hétérogènes

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager