Calcul de motifs sous contraintes pour la classification supervisée

Dominique Gay

Résumé

Recent advances in local pattern mining (e.g., frequent itemsets or association rules) has shown to be very useful for classification tasks. This thesis deals with local constraint-based pattern mining and its use in classification problems. We suggest methodological contributions for two difficult classification tasks: When training classifiers, the presence of attribute-noise can severely harm their performance. Existing methods try to correct noisy attribute values or delete noisy objects -- thus leading to some information loss. In this thesis, we propose an application-independent method for noise-tolerant feature construction -- without modifying attribute values or deleting any objects. Our approach is two-step: Firstly, we mine a set delta-strong characterization rules. These rules own fair properties such as a minimal body, redundancy-awareness and are based on delta-freeness and delta-closedness -- both have already served as a basis for a fault-tolerant pattern and for cluster characterization in noisy data sets. Secondly, from each extracted rule, we build a new numeric robust descriptor. The experiments we led in noisy environments have shown that classical classifiers are more accurate on data sets with the new robust features than on original data -- thus validating our approach. When class distribution is imbalanced, existing pattern-based classification methods show a bias towards the majority class. In this case, accuracy results for the majority class are abnormally high to the expense of poor accuracy results for the minority class(es). In this thesis, we explain the whys and whens of this bias. Existing methods do not take into account the class distribution or the error repartition of mined patterns in the different classes. In order to overcome this problem, we suggest a new framework and deal with a new pattern type to be mined: the One-Versus-Each-characterization rules (OVE). However, in this new framework, several frequency and infrequency thresholds have to be tuned. Therefore, we suggest fitcare an optimization algorithm for automatic parameter tuning in addition to an extraction algorithm for OVE-characterization rule mining. The experimentations on imbalanced multi-class data sets have shown that fitcare is significantly more accurate on minor class prediction than existing approaches. The application of our OVE framework to a soil erosion data analysis scenario has shown the added-value of our proposal by providing a soil erosion characterization validated by domain experts.

Ces dernières années, l'extraction de motifs locaux (itemsets fréquents et règles d'association) a suscité beaucoup d'entrain pour la classification supervisée. Cette thèse traite du calcul et de l'usage de motifs sous contraintes pour la classification supervisée. Nous nous attaquons à deux problèmes difficiles en classification supervisée à base de motifs et proposons deux contributions méthodologiques : D'un côté, lorsque les attributs sont bruités, les performances des classifieurs peuvent être désastreuses. Les méthodes existantes consistent à corriger les valeurs d'attributs ou supprimer les objets bruités -- ce qui génère une perte d'information. Dans ce mémoire, nous proposons une méthode générique de construction de descripteurs robustes au bruit d'attributs -- sans modifier les valeurs d'attributs ni supprimer les objets bruités. Notre approche se déroule en deux étapes : premièrement nous extrayons l'ensemble des règles delta-fortes de caractérisation. Ces règles offrent des propriétés de corps minimal, de non-redondance et sont basées sur les itemsets delta-libres et leur delta-fermeture -- qui ont déjà fait leur preuve pour la caractérisation de groupements dans des contextes bruités. Deuxièmement, nous construisons un nouveau descripteur numérique robuste pour chaque règle extraite. Les expérimentations menées dans des données bruitées, montrent que des classifieurs classiques sont plus performants en terme de précision sur les données munies des nouveaux descripteurs que sur les données avec les attributs originaux. D'autre part, lorsque la distribution des classes est inégale, les approches existantes de classification à base de motifs ont tendance à être biaisées vers la classe majoritaire. La précision sur la (ou les) classe(s) majoritaire(s) est alors élevée au détriment de la précision sur la (ou les) classe(s) minoritaire(s). Nous montrons que ce problème est dû au fait que les approches existantes ne tiennent pas compte de la répartition des classes et/ou de la fréquence relative des motifs dans chacune des classes de la base. Pour pallier ce problème, nous proposons un nouveau cadre de travail dans lequel nous extrayons un nouveau type de motifs : les règles de caractérisation One-Versus-Each (OVE-règles). Ce nouveau cadre de travail nécessite le paramétrage d'un nombre conséquent de seuils de fréquence et d'infréquence. Pour ce faire, nous proposons un algorithme d'optimisation de paramètres, fitcare ainsi qu'un algorithme d'extraction d'OVE-règles. Les expérimentations menées sur des données UCI multi-classes disproportionnées et sur des données de diagnostic de méningite aigüe, montrent que notre approche fitcare est plus performante que les approches existantes en terme de précision sur les classes mineures. L'application de notre méthode de classification associative à l'analyse de données d'érosion des sols en Nouvelle-Calédonie a mis en évidence l'intérêt de notre proposition pour caractériser les phénomènes d'érosion.

Constraint-based pattern mining for classification purpose

Calcul de motifs sous contraintes pour la classification supervisée

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager