Extraction de Séquences Fréquentes : Des Bases de Données Statiques aux Flots de Données - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2008

Extraction de Séquences Fréquentes : Des Bases de Données Statiques aux Flots de Données

Chedy Raïssi

Résumé

Recently, with the constant progress in software and hardware technologies, real-world databases tend to grow larger and the hypothesis that a database can be efficiently analyzed by a human being is no longer valid. In order to cope with this new challenge, a new set of methods and technologies (i.e., Knowledge Discovery and Delivery Data Mining or KDD) were developped to enable data exploration, data analysis and data visualisation of very large databases at a high level of abstraction. Furthermore, the data stream model, a new model of data as a continuous and potentially infinite flow, call for new approaches for the pre-processing and data mining operations.
In this thesis, we focus on a very specific data mining method: sequential pattern mining. This method aims at discovering correlations among events through time. We present very important theoretical results on the possible concise representations for sequences. Furthermore, we introduce a new pattern called conjunctive sequential pattern. Sampling methods and approaches for sequential pattern mining over data streams and static databases are also introduced and discussed. Moreover, we define an algorithm that allows the discovery of multidimensional sequential patterns. These approaches are also validated with experiments on real data.
Extraction de séquences fréquentes : des bases de données statiques aux flots de données Il est reconnu aujourd'hui que l'être humain est généralement noyé sous une profusion d'informations et que sa capacité d'analyse n'est plus capable de faire face au volume sans cesse croissant de données. C'est dans ce contexte qu'est né le processus d'Extraction de Connaissance dans les bases de Données. Un des buts de ce processus est de passer d'un grand volume d'informations à un petit ensemble de connaissances à fortes valeurs ajoutées pour l'analyste ou le décideur. De plus, le processus d'ECD n'est pas un processus monolithique et univoque au cours duquel il s'agirait d'appliquer un principe général à tous les types de données stockées ou récupérées. Ainsi, une des étapes de ce processus qu'est la fouille de données peut se dériver sous plusieurs formes tels que : le clustering, la classification, l'extraction d'itemset et de règles d'associations, l'extraction de structures plus complexes tels que les épisodes, les graphes ou comme dans le cadre de cette thèse l'extraction de motifs séquentiels. Malheureusement, dans un monde sans cesse en évolution, le contexte dans lequel les travaux d'ECD ont été définis ces dernières années considérait que les données, sur lesquelles la fouille était réalisée, étaient disponibles dans des bases de données statiques. Aujourd'hui, suite au développement de nouvelles technologies et applications associées, nous devons faire face à de nouveaux modèles dans lesquels les données sont disponibles sous la forme de flots. Une question se pose alors : quid des approches d'extraction de connaissances traditionnelles ? Dans ce mémoire, nous présentons un ensemble de résultat sur les motifs séquentiels dans les bases de données d'un point de vue des représentations condensées et des méthodes d'échantillonnage puis nous étendons nos différentes approches afin de prendre en compte le nouveau modèle des flots de données. Nous présentons des algorithmes permettant ainsi l'extraction de motifs séquentiels (classiques et multidimensionnels) sur les flots. Des expérimentations menées sur des données synthétiques et sur des données réelles sont rapportées et montrent l'intérêt de nos propositions.
Fichier principal
Vignette du fichier
These-Raissy-08.pdf (2.1 Mo) Télécharger le fichier

Dates et versions

tel-00351626 , version 1 (09-01-2009)

Identifiants

  • HAL Id : tel-00351626 , version 1

Citer

Chedy Raïssi. Extraction de Séquences Fréquentes : Des Bases de Données Statiques aux Flots de Données. Informatique [cs]. Université Montpellier II - Sciences et Techniques du Languedoc, 2008. Français. ⟨NNT : ⟩. ⟨tel-00351626⟩
307 Consultations
2140 Téléchargements

Partager

Gmail Facebook X LinkedIn More