Analyse en ligne (OLAP) de documents - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2007

On-Line Analysis Processing (OLAP) of Documents

Analyse en ligne (OLAP) de documents

Résumé

Data warehouses and OLAP systems (On-Line Analytical Processing) provide methods and tools for enterprise information system data analysis. But only 20% of the data of a corporate information system may be processed with actual OLAP systems. The rest, namely 80%, i.e. documents, remains out of reach of OLAP systems due to the lack of adapted tools and processes. To solve this issue we propose a multidimensional conceptual model for representing analysis concepts. The model rests on a unique concept that models both analysis subjects as well as analysis axes. We define an aggregation function to aggregate textual data in order to obtain a summarised vision of the information extracted from documents. This function summarises a set of keywords into a smaller and more general set. We introduce a core of manipulation operators that allow the specification of analyses and their manipulation with the use of the concepts of the model. We associate a design process for the integration of data extracted from documents within an OLAP system that describes the phases for designing the conceptual schema, for analysing the document sources and for the loading process. In order to validate these propositions we have implemented a prototype.
Les entrepôts de données et les systèmes d'analyse en ligne OLAP (On-Line Analytical Processing) fournissent des méthodes et des outils permettant l'analyse de données issues des systèmes d'information des entreprises. Mais, seules 20% des données d'un système d'information est constitué de données analysables par les systèmes OLAP actuels. Les 80% restant, constitués de documents, restent hors de portée de ces systèmes faute d'outils ou de méthodes adaptés. Pour répondre à cette problématique nous proposons un modèle conceptuel multidimensionnel pour représenter les concepts d'analyse. Ce modèle repose sur un unique concept, modélisant à la fois les sujets et les axes d'une analyse. Nous y associons une fonction pour agréger des données textuelles afin d'obtenir une vision synthétique des informations issues de documents. Cette fonction résume un ensemble de mots-clefs par un ensemble plus petit et plus général. Nous introduisons un noyau d'opérations élémentaires permettant la spécification d'analyses multidimensionnelles à partir des concepts du modèle ainsi que leur manipulation pour affiner une analyse. Nous proposons également une démarche pour l'intégration des données issues de documents, qui décrit les phases pour concevoir le schéma conceptuel multidimensionnel, l'analyse des sources de données ainsi que le processus d'alimentation. Enfin, pour valider notre proposition, nous présentons un prototype.
Fichier principal
Vignette du fichier
_Tournier-07_These_version_BU_.pdf (3.55 Mo) Télécharger le fichier
_Tournier-07_Presentation_Soutenance.ppt (3.69 Mo) Télécharger le fichier
Format : Autre

Dates et versions

tel-00348094 , version 1 (17-12-2008)

Identifiants

  • HAL Id : tel-00348094 , version 1

Citer

Ronan Tournier. Analyse en ligne (OLAP) de documents. Interface homme-machine [cs.HC]. Université Paul Sabatier - Toulouse III, 2007. Français. ⟨NNT : ⟩. ⟨tel-00348094⟩
529 Consultations
2608 Téléchargements

Partager

Gmail Facebook X LinkedIn More