Techniques d'optimisation pour la fouille de données

Dominique Francisci

Résumé

Numerical technologies have generated for a few years, huge volumes of data, which can conceal useful information. This situation gave rise to knowledge discovery activities in data bases. This indicates the non obvious process of extracing implicit informations, previously unknown and potentially useful hidden into the data. A standard knowledge discovery process includes five steps. The main one is data mining. We are interested in a kind of information expressed as a dependency rule and in the interestingness of a rule. A dependency rule is a conditional implication between sets of attributes over the data set. The purpose of standard data mining algorithmes is generally to find the best model. In fact, behind these processes, there is an optimization problem which is not explicitly expressed. We consider interestingness of dependency rules as being an optimization problem in which rule interestingness is quantified by the mean of measures. Thus, it is necessary to study the search space induced by measures as well as seach algorithms associated with the analysis of these spaces. It arises that these measures have a different behavior according to the data set involved ; so, an analytical approach is not possible. It arises that some of these measures, when they are considered simultaneously, present antagonisms ; thus, obtaining "the" best rule is not possible ; it is necessary to consider a set of good tradeoffs. We bring solutions by the means of genetic approch.

Les technologies numériques ont engendré depuis peu, des volumes de données importants, qui peuvent receler des informations utiles. Ceci a donné naissance à l'extraction de connaissances à partir des données qui désigne le processus d'extraction d'informations implicites, précédemment inconnues et potentiellement utiles enfouies dans les données. La fouille de données comprend cinq phases dont la principale est l'extraction de modèles. Nous nous intéressons aux connaisances exprimées sous la forme de règles de dépendance et à la qualité de ces règles. Une règle de dépendance est une implication conditionnelle entre ensembles d'attributs. Les algorithmes standard ont pour but de rechercher les meilleurs modèles. Derrière ces processus se cache en fait une véritable problématique d'optimisation. Nous considérons la recherche des règles de dépendance les plus intéressantes comme étant un problème d'optimisation dans lequel la qualité d'une règle est quantifiée par des mesures. Ainsi, il convient d'étudier les espaces de recherche induits par les mesures ainsi que les algorithmes de recherche dans ces espaces. Il ressort que la plupart des mesures observées présentent des propriétés différentes suivant le jeu de données. Une approche analytique n'est donc pas envisageable dans fixer certains paramères. Nous observons les variations relatives de mesures évaluées simultanément ; certaines d'entre elles sont antagonistes ce qui ne permet pas d'obtenir "la" meilleure règle ; il faut alors considérer un ensemble de compromis satisfaisants. Nous apportons des solutions par le biais des algorithmes génétiques.

Optimization techniques for data minig

Techniques d'optimisation pour la fouille de données

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager