Fouille de motifs basée sur la programmation par contraintes - Appliquée à la validation de logiciels - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2017

Patterns mining under constraints – applied for software testing

Fouille de motifs basée sur la programmation par contraintes - Appliquée à la validation de logiciels

Mehdi Maamar
  • Fonction : Auteur
  • PersonId : 1029073

Résumé

Discovering the set of closed frequent itemsets is one of the fundamental problems in Data Mining. Recent Constraint Programming (CP) approaches for declarative itemset mining have proven their usefulness and flexibility. However, the first CP model that is based on a wide set of reified constraints is not able to cope with high dimensional datasets.The first contribution of this thesis is the proposition of a global constraint for mining closed frequent itemsets with a filtering algorithm that enforces domain consistency in polynomial time and space. Moreover, itemset mining techniques have been used in a wide range of applications. Over the last years, software testing, and specially the fault localization task, becomes one of the challenging application domains for data mining. The fault localization task aims to locate automatically bugs in programs. The second contribution of this thesis is that we investigate, for the first time, how the fault localization problem can be reduced to a closed frequent itemset problem. We formalize the problem of fault localization as finding the k best itemsets satisfying a set of constraints modeling the most suspicious statements. We use a CP approach to model and to solve our itemset based fault localization problem. We propose a robust CP model based on our global constraint. Finally, we conduct several experiments to evaluate and to validate our contributions with the implementation of the \closed global constraint and the implementation of a fault localization tool, named FCP-Miner.
La découverte de motifs {fréquents fermés est l'un des problèmes fondamentaux en fouille de données ensemblistes. Les approches récentes basées sur la programmation par contraintes (PPC) ont prouvé leur utilité et leur flexibilité. En effet, la programmation par contraintes est un cadre adéquat pour la fouille déclarative. Toutefois, l'utilisation des contraintes réifiées dans les approches actuelles, pose un sérieux problème de passage à l'échelle, face à des bases de tailles conséquentes. Nous proposons dans la première partie de cette thèse, une contrainte globale pour capturer la sémantique particulière de l'extraction de motifs fréquents fermés, sans faire appel aux contraintes réifiées ou aux variables supplémentaires. Nous présentons un algorithme de filtrage, qui maintient la consistance de domaine en un temps et espace polynomial. Servant de cadre applicatif à la fouille de données, le test logiciel est connu pour être un processus long et coûteux. La principale préoccupation, appelée localisation de fautes, est d'identifier l'origine des défaillances. Dernièrement, plusieurs techniques ont été proposées, visant ainsi à développer des outils efficaces pour la localisation, en se basant sur un degré de suspicion, que chaque technique calcule pour chaque instruction d'un programme. Nous proposons dans un second temps, une approche déclarative, basée sur la fouille de données ensemblistes pour assister la localisation de fautes. L'approche tire profit de l'extraction de données sous contraintes, offrant la possibilité et l'avantage de raisonner simultanément sur des ensembles d'instructions. Ainsi, l'approche permet de tenir compte des dépendances existantes, ce qui reflète la notion de motif suspect. Nous formalisons le problème de la localisation comme un problème d'extraction des k meilleurs motifs fermés, satisfaisant un ensemble de contraintes, modélisant les instructions les plus suspectes. Par la suite, nous exploitons la contrainte globale pour l'extraction de motifs au service de la localisation, ce qui permet une amélioration des performances et de l'évolutivité, pour extraire les top-k motifs suspects
Fichier principal
Vignette du fichier
thesis.pdf (1.72 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

tel-01723480 , version 1 (05-03-2018)

Identifiants

  • HAL Id : tel-01723480 , version 1

Citer

Mehdi Maamar. Fouille de motifs basée sur la programmation par contraintes - Appliquée à la validation de logiciels. Intelligence artificielle [cs.AI]. Université d'Oran 1 Ahmed Ben Bella, 2017. Français. ⟨NNT : ⟩. ⟨tel-01723480⟩
220 Consultations
299 Téléchargements

Partager

Gmail Facebook X LinkedIn More