Extraction De Motifs Séquentiels Dans Des Données Multidimensionelles - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2008

Extraction De Motifs Séquentiels Dans Des Données Multidimensionelles

Mining Sequential Patterns In Multidimensional Data

Marc Plantevit

Résumé

Sequential pattern mining is a key technique of data mining with broad applications (user behavior analysis, bioinformatic, security, music, etc.). Sequential pattern mining aims at discovering correlations among events through time. There exist many algorithms to discover such patterns. However, these approaches only take one dimension into account (e.g. product dimension in customer market basket problem analysis) whereas data are multidimensional in nature. In this thesis, we define multidimensional sequential patterns to take the specificity of multidimensional databases (several dimensions, hierarchies, aggregated value). We define algorithms that allow the discovery of such patterns by handling this specificity. Some experiments on both synthetic and real data are reported and show the interest of our proposals. We also focus on the discovery of atypical behavior. We show that there are several interpretations of an atypical behavior (fact or knowledge). According to each interpretation, we propose an approach to discover such behaviors. These approaches are also validated with experiments on real data.
L'extraction de motifs séquentiels est devenue, depuis son introduction, une technique majeure du domaine de la fouille de données avec de nombreuses applications (analyse du comportement des consommateurs, bioinformatique, sécurité, musique, etc.). Les motifs séquentiels permettent la découverte de corrélations entre événements en fonction de leurs chronologies d'apparition. Il existe de nombreux algorithmes permettant l'extraction de tels motifs. Toutefois, ces propositions ne prennent en compte qu'une seule dimension d'analyse (e.g le produit dans les applications de type étude des achats des consommateurs) alors que la plupart des données réelles sont multidimensionnelles par nature. Dans ce manuscrit, nous définissons les motifs séquentiels multidimensionnels afin de prendre en compte les spécificités inhérentes aux bases de données multidimensionnelles (plusieurs dimensions, hiérarchies, valeurs agrégées). Nous définissons des algorithmes permettant l'extraction de motifs séquentiels multi- dimensionnels en tenant compte des ces spécificités. Des expérimentations menées sur des données synthétiques et sur des données réelles sont rapportées et montrent l'intérêt de nos propositions. Nous nous intéressons également à l'extraction de comportements temporels atypiques dans des données multidimensionnelles. Nous montrons qu'il peut y avoir plusieurs interprétations d'un comportement atypique (fait ou connaissance). En fonction de chaque interprétation, nous proposons une méthode d'extraction de tels comportements. Ces méthodes sont également validées par des expérimentations sur des données réelles.
Fichier principal
Vignette du fichier
rapport.pdf (1.99 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00319242 , version 1 (07-09-2008)

Identifiants

  • HAL Id : tel-00319242 , version 1

Citer

Marc Plantevit. Extraction De Motifs Séquentiels Dans Des Données Multidimensionelles. Informatique [cs]. Université Montpellier II - Sciences et Techniques du Languedoc, 2008. Français. ⟨NNT : ⟩. ⟨tel-00319242⟩
252 Consultations
2044 Téléchargements

Partager

Gmail Facebook X LinkedIn More