Fouille de données et analyse de qualité des règles d’association dans les bases de données massives : Application dans le domaine de la sécurité routière - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2018

Data mining and quality analysis of association rules in large databases: Application in the field of road safety

Fouille de données et analyse de qualité des règles d’association dans les bases de données massives : Application dans le domaine de la sécurité routière

Résumé

Knowledge discovery in databases (KDD), often called Data Mining. « Is the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data ». Data mining is an active field of research aiming to exploit the vast amounts of data collected every day in various fields of computer science applications. This multidisciplinary field comes from artificial intelligence, statistics, and databases. In this thesis, we are interested in the problem of extracting association rules by introducing new algorithms and approaches. In general, an association rule is a conditional implication between sets of binary attributes called items. The extraction of such rules is composed of two main steps which are the extraction of frequent itemsets and the generation of association rules from them. The complexity of each of these steps is exponential: the number of frequent itemsets is exponential, and the number of association rules extracted can be very high, due to the quality measures used. In the literature, the extraction of the association rules is composed of two main difficulties, the response time and the memory space. To overcome these difficulties, we propose in this thesis three main contributions respectively allowing the extraction of relevant association rules, the integration of the spatial component into the extraction process, and mining relevant association rules from big data. In the first contribution, we propose an extraction approach of the relevant association rules based on multicriteria decision analysis. Then, in the second contribution, we propose an efficient algorithm for extracting spatial predicates from which frequent sets of items and spatial association rules can be generated based on the preparation of the spatial context and the fuzzy set theory. We also proposed in the third contribution a distributed algorithm for the extraction of association rules from Big Data. Using these contributions, we were able to extract the relevant association rules and reduce the execution time and memory space. Besides, to test concretely the contribution of the proposed solutions, we designed and developed a software prototype consisting of three interfaces. The first entitled ARM interface, is an interactive web interface dedicated to the extraction of association rules. The second interface, entitled MCDA interface, it is an interactive web interface dedicated to the evaluation and extraction of relevant association rules. For the last one, entitled Time Series Forecasting, is an interactive web interface dedicated to the prediction of road accidents. Moreover, interactive and user-friendly interfaces have been developed by using R language and rshiny. Finally, the experiments conducted on some databases on road accidents in Morocco show the significant feasibility of our contributions.
L'extraction de connaissances dans les bases de données (ECD), également appelée fouille de données, « désigne le processus non trivial d'extraction d'information implicite, précédemment inconnue et potentiellement utile ». La fouille de données est un domaine de recherche en plein essor visant à exploiter les grandes quantités de données collectées chaque jour dans divers domaines d'application de l'informatique. Ce domaine pluridisciplinaire est issu de l'intelligence artificielle, des statistiques et des bases de données. Dans ce travail, nous nous intéressons au problème de l'extraction des règles d'association en introduisant de nouveaux algorithmes et approches d'aide à la décision multicritère. D'une manière générale, une règle d'association est une implication conditionnelle entre des ensembles d'attributs binaires appelés items. L'extraction de telles règles est décomposée en deux étapes principales, à savoir l'extraction des itemsets fréquents et la génération des règles d'association à partir de ceux-ci. Dans la majorité des approches existantes dans la littérature, l'extraction des règles d'association présente trois difficultés majeurs, à savoir; la qualité des règles extraites, l'aspect spatiale de données et le temps de réponse des algorithmes d'extraction. Pour surmonter ces difficultés, nous proposons dans cette thèse l'intégration de l'analyse multicritère au processus d'extraction des règles d'association pour l'analyse de la qualité. Ensuite, afin de prendre en considération l'aspect spatiale de données, et plus précisément l'estimation des distances métriques, nous avons proposé l'utilisation de la logique floue. Nous avons proposé également une intégration de l'algorithme FP-growth dans un environnement du Big Data pour l'extraction des règles d'association dans les bases de données massives. En plus, en vue de tester concrètement l'apport des solutions proposées, nous avons conçu et développé un prototype logiciel constitué de trois interfaces interactives. La première intitulée interface ARM, est une interface web dédiée à l'extraction des règles d'association. La deuxième interface, intitulée interface MCDA, est une interface web dédiée à l'analyse de qualité des règles d'association extraites. Quant à la dernière, intitulée Time Series Forcasting, est une interface web dédiée à la prédiction des accidents routières en termes du nombre de blessures et décès. Ces interfaces interactives d'exploration de données ont été développées en utilisant le langage R et rshiny. En fin, les expérimentations menées sur quelques bases de données relatives aux accidents routières au Maroc montrent la faisabilité notable de nos contributions.
Fichier principal
Vignette du fichier
rapport_de_these.pdf (6.77 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

tel-02611898 , version 1 (18-05-2020)

Identifiants

  • HAL Id : tel-02611898 , version 1

Citer

Addi Ait-Mlouk. Fouille de données et analyse de qualité des règles d’association dans les bases de données massives : Application dans le domaine de la sécurité routière. Recherche d'information [cs.IR]. Université Cadi Ayyad Marrakech (Maroc), 2018. Français. ⟨NNT : ⟩. ⟨tel-02611898⟩
205 Consultations
625 Téléchargements

Partager

Gmail Facebook X LinkedIn More