Handling imbalanced datasets by reconstruction rules in decomposition schemes

Résumé : Le déséquilibre entre la distribution des a priori est rencontré dans un nombre très large de domaines. Les algorithmes d'apprentissage conventionnels sont moins efficaces dans la prévision d'échantillons appartenant aux classes minoritaires. Notre but est de développer une règle de reconstruction adaptée aux catégories de données biaisées. Nous proposons une nouvelle règle, la Reconstruction Rule par sélection, qui, dans le schéma 'One-per-Class', utilise la fiabilité, des étiquettes et des distributions a priori pour permettre de calculer une décision finale. Les tests démontrent que la performance du système s'améliore en utilisant cette règle plutôt que des règles classiques. Nous étudions également les règles dans l' 'Error Correcting Output Code' (ECOC) décomposition. Inspiré par une règle de reconstitution de données statistiques conçue pour le 'One-per-Class' et 'Pair-Wise Coupling' des approches sur la décomposition, nous avons développé une règle qui s'applique à la régression 'softmax' sur la fiabilité afin d'évaluer la classification finale. Les résultats montrent que ce choix améliore les performances avec respect de la règle statistique existante et des règles de reconstructions classiques. Sur ce thème d'estimation fiable nous remarquons que peu de travaux ont porté sur l'efficacité de l'estimation postérieure dans le cadre de boosting. Suivant ce raisonnement, nous développons une estimation postérieure efficace en boosting Nearest Neighbors. Utilisant Universal Nearest Neighbours classification nous prouvons qu'il existe une sous-catégorie de fonctions, dont la minimisation apporte statistiquement de simples et efficaces estimateurs de Bayes postérieurs.
Type de document :
Thèse
Other [cs.OH]. Université Nice Sophia Antipolis; Università Campus Bio-Medico di Roma, 2014. English. <NNT : 2014NICE4007>
Liste complète des métadonnées

https://tel.archives-ouvertes.fr/tel-00995021
Contributeur : Abes Star <>
Soumis le : jeudi 22 mai 2014 - 15:18:44
Dernière modification le : vendredi 23 mai 2014 - 16:04:13
Document(s) archivé(s) le : vendredi 22 août 2014 - 12:45:36

Fichier

2014NICE4007.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-00995021, version 1

Collections

STAR | UNICE | I3S

Citation

Roberto D'Ambrosio. Handling imbalanced datasets by reconstruction rules in decomposition schemes. Other [cs.OH]. Université Nice Sophia Antipolis; Università Campus Bio-Medico di Roma, 2014. English. <NNT : 2014NICE4007>. <tel-00995021>

Partager

Métriques

Consultations de
la notice

517

Téléchargements du document

493