Capturing the temporal constraints of gradual patterns - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2020

Capturing the temporal constraints of gradual patterns

Capturer les contraintes temporelles des modèles graduels

Résumé

Gradual pattern mining allows for extraction of attribute correlations through gradual rules such as: “the more X, the more Y”. Such correlations are useful in identifying and isolating relationships among the attributes that may not be obvious through quick scans on a data set. For instance, a researcher may apply gradual pattern mining to determine which attributes of a data set exhibit unfamiliar correlations in order to isolate them for deeper exploration or analysis. Assume the researcher has a data set which has the following attributes: age, amount of salary, number of children, and education level. An extracted gradual pattern may take the form “the lower the education level, the higher the salary”. Since this relationship is uncommon, it may interest the researcher in putting more focus on this phenomenon in order to understand it. As for many gradual pattern mining approaches, there is a key challenge to deal with huge data sets because of the problem of combinatorial explosion. This problem is majorly caused by the process employed for generating candidate gradual item sets. One way to improve the process of generating candidate gradual item sets involves optimizing this process using a heuristic approach. In this work, we propose an ant colony optimization technique which uses a popular probabilistic approach that mimics the behavior biological ants as they search for the shortest path to find food in order to solve combinatorial problems. We apply the ant colony optimization technique in order to generate gradual item set candidates whose probability of being valid is high. This coupled with the anti-monotonicity property, results in the development of a highly efficient ant-based gradual pattern mining technique. In our second contribution, we extend an existing gradual pattern mining technique to allow for extraction of gradual patterns together with an approximated temporal lag between the affected gradual item sets. Such a pattern is referred to as a fuzzy-temporal gradual pattern and it may take the form: “the more X, the more Y, almost 3 months later”. The addition of temporal dimension into the proposed approach makes it even worse regarding combinatorial explosion due to added task of searching for the most relevant time gap. In our third contribution, we propose a data crossing model that allows for integration of mostly gradual pattern mining algorithm implementations into a Cloud platform. This contribution is motivated by the proliferation of IoT applications in almost every area of our society and this comes with provision of large-scale time-series data from different sources. It may be interesting for a researcher to cross different time-series data with the aim of extracting temporal gradual patterns from the mapped attributes. For instance, a ‘humidity’ data set may be temporally crossed with an unrelated data set that records the ‘population of flies’, and a pattern may take the form: “the higher the humidity, the higher the number of flies, almost 2 hours later”. Again, the study emphasizes integration of gradual pattern mining techniques into a Cloud platform because this will facilitate their access on a subscription basis. This alleviates installation and configuration hustles for the users; therefore, it allows them to spend more time focusing on the phenomena they are studying.
La recherche de motifs fréquents permet d’extraire les corrélations d’attributs par le biais de règles graduelles comme: “plus il y a de X, plus il y a de Y”. Ces corrélations sont utiles pour identifier et isoler des relations entre les attributs qui peuvent ne pas être évidentes grâce à des analyses rapides des données. Par exemple, un chercheur peut appliquer une telle recherche pour déterminer quels attributs d’un ensemble de données présentent des corrélations inconnues afin de les isoler pour une exploration plus approfondie ou une analyse. Supposons que le chercheur dispose d’un ensemble de données qui possède les attributs suivants : âge, montant du salaire, du nombre d’enfants et du niveau d’éducation. Un motif graduel extrait peut prendre la forme “plus le niveau d’éducation est bas, plus le salaire est élevé”. Étant donné que cette relation est rare, il peut être intéressant pour le chercheur de mettre davantage l’accent sur ce phénomène afin de comprendre. Les techniques de recherche de motifs graduels existantes extraient des motifs graduels en (1) générant des les candidats de l’ensemble d’éléments, (2) validant des candidats et (3) en élaguant des candidats invalides en fonction sur la propriété d’anti-monotonie. Cette propriété d’anti-monotonie est telle qu’un candidat est considéré comme invalide si l’un de ses sous-ensembles est invalide. Cette propriété améliore l’efficacité du processus d’élagage. L’efficacité de la génération d’ensembles de candidats peut être améliorée en utilisant une approche heuristique qui optimise le processus. Dans ce travail, nous proposons une technique d’optimisation par des colonies de fourmis qui utilise une approche probabiliste imitant le comportement des fourmis biologiques en cherchant le chemin le plus court pour trouver de la nourriture afin de résoudre des problèmes combinatoires. Nous appliquons la technique d’optimisation des colonies de fourmis afin de générer des candidats des motifs graduels dont la probabilité d’être valide est élevée. Ceci, couplé avec la propriété d'anti-monotonie, se traduit par le développement d’une méthode efficace. Dans notre deuxième contribution, nous étendons l’extraction de modèles graduels existante à l’extraction de motifs graduels avec un décalage temporel approximatif entre ses attributs affectés. Un tel modèle est appelé motif graduel temporel flou. Cela peut prendre par exemple la forme: “plus il y a de X, plus il y a de Y presque 3 mois plus tard” Ces modèles ne peuvent être extraits que de séries de données chronologiques car ils impliquent la présence de l’aspect temporel. Dans notre troisième contribution, nous proposons une donnée modèle de croisement qui permet l’intégration d’implémentations d’algorithmes d’exploration de modèle graduel dans une plateforme Cloud. Cette contribution est motivée par la prolifération des applications IoT dans presque tous les domaines de notre société, ce qui s’accompagne de la fourniture de données chronologiques à grande échelle de différentes sources. Il peut être intéressant pour un chercheur de croiser différentes données de séries chronologiques dans le but d’extraire des motifs graduels temporels des attributs cartographiés. Par exemple un ensemble de données ‘humidité’ peut être temporairement croisé avec un ensemble de données indépendant qui enregistre ‘Population de mouches’, et un schéma peut prendre la forme: “plus l’humidité est élevée, plus vole presque 2 heures plus tard”. Notre méthode met l’accent sur l’intégration de l’exploitation des techniques les plus récentes de plate-formes Cloud, car cela facilite l’accès à nos méthodes en allégeant l’installation et la configuration pour les utilisateurs, permettant ainsi aux utilisateurs de passer plus de temps à se concentrer sur les phénomènes qu’ils analysent.
Fichier principal
Vignette du fichier
OWUOR_2020_archivage.pdf (2.13 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03154982 , version 1 (01-03-2021)

Identifiants

  • HAL Id : tel-03154982 , version 1

Citer

Dickson Odhiambo Owuor. Capturing the temporal constraints of gradual patterns. Other [cs.OH]. Université Montpellier, 2020. English. ⟨NNT : 2020MONTS019⟩. ⟨tel-03154982⟩
109 Consultations
91 Téléchargements

Partager

Gmail Facebook X LinkedIn More