Une approche probabiliste pour le classement d'objets incomplètement connus dans un arbre de décision - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2008

A Probabilistic Approach to Classify Incomplete Objects in a Decision Tree

Une approche probabiliste pour le classement d'objets incomplètement connus dans un arbre de décision

Lamis Hawarah
  • Fonction : Auteur
  • PersonId : 855118

Résumé

We describe in this thesis an approach to fill missing values in decision trees during the classification phase. This approach is derived from the it ordered attribute trees (OAT) method, proposed by Lobo and Numao in 2000, which builds a decision tree for each attribute and uses these trees to fill the missing attribute values. It is based on the Mutual Information between the attributes and the class. Our approach extends this method by taking the dependence between the attributes into account when constructing the attributes trees, and provides a probability distribution as a result when classifying an incomplete object (instead of the most probable class). We present our approach and we test it on some real databases. We also compare our results with those given by the C4.5 method and OAT.

We also propose a k-nearest neighbours algorithm which calculates for each object from the test data its frequency in the learning data. We compare these frequencies with the classification results given by our approach, C4.5 and OAT. Finally, we calculate the complexity of constructing the attribute trees and the complexity of classifying a new instance with missing values using our classification algorithm, C4.5 and OAT.
Nous présentons dans cette thèse une approche probabiliste pour déterminer les valeurs manquantes des objets incomplets pendant leur classement dans les arbres de décision. Cette approche est dérivée de la méthode d'apprentissage supervisé appelée Arbres d'Attributs Ordonnées (AAO) proposée par Lobo et Numao en 2000, qui construit un arbre de décision pour chacun des attributs, selon un ordre croissant en fonction de l'Information Mutuelle entre chaque attribut et la classe. Notre approche étend la méthode de Lobo et Numao, d'une part en prenant en compte les dépendances entre les attributs pour la construction des arbres d'attributs, et d'autre part en fournissant un résultat de classement d'un objet incomplet sous la forme d'une distribution de probabilités (au lieu de la classe la plus probable).
Nous expliquons notre méthode et nous la testons sur des bases de données réelles. Nous comparons nos résultats avec ceux donnés par la méthode C4.5 et AAO.

Nous proposons également un algorithme basé sur la méthode des k plus proches voisins qui calcule pour chaque objet de la base de test sa fréquence dans la base d'apprentissage. Nous comparons ces fréquences avec les résultats de classement données par notre approche, C4.5 et AAO. Finalement, nous calculons la complexité de construction des arbres d'attributs ainsi que la complexité de classement d'un objet incomplet en utilisant notre approche, C4.5 et AAO.
Fichier principal
Vignette du fichier
these.pdf (1.03 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00335313 , version 1 (29-10-2008)
tel-00335313 , version 2 (30-10-2008)

Identifiants

  • HAL Id : tel-00335313 , version 2

Citer

Lamis Hawarah. Une approche probabiliste pour le classement d'objets incomplètement connus dans un arbre de décision. Informatique [cs]. Université Joseph-Fourier - Grenoble I, 2008. Français. ⟨NNT : ⟩. ⟨tel-00335313v2⟩
1486 Consultations
3015 Téléchargements

Partager

Gmail Facebook X LinkedIn More