Feature selection for semi-supervised data analysis in decisional information systems

Résumé : La sélection de variables est une tâche primordiale en fouille de données et apprentissage automatique. Il s’agit d’une problématique très bien connue par les deux communautés dans les contextes, supervisé et non-supervisé. Le contexte semi-supervisé est relativement récent et les travaux sont embryonnaires. Récemment, l’apprentissage automatique a bien été développé à partir des données partiellement labélisées. La sélection de variables est donc devenue plus importante dans le contexte semi-supervisé et plus adaptée aux applications réelles, où l’étiquetage des données est devenu plus couteux et difficile à obtenir. Dans cette thèse, nous présentons une étude centrée sur l’état de l’art du domaine de la sélection de variable en s’appuyant sur les méthodes qui opèrent en mode semi-supervisé par rapport à celles des deux contextes, supervisé et non-supervisé. Il s’agit de montrer le bon compromis entre la structure géométrique de la partie non labélisée des données et l’information supervisée de leur partie labélisée. Nous nous sommes particulièrement intéressés au «small labeled-sample problem» où l’écart est très important entre les deux parties qui constituent les données. Pour la sélection de variables dans ce contexte semi-supervisé, nous proposons deux familles d’approches en deux grandes parties. La première famille est de type «Filtre» avec une série d’algorithmes qui évaluent la pertinence d’une variable par une fonction de score. Dans notre cas, cette fonction est basée sur la théorie spectrale de graphe et l’intégration de contraintes qui peuvent être extraites à partir des données en question. La deuxième famille d’approches est de type «Embedded» où la sélection de variable est intrinsèquement liée à un modèle d’apprentissage. Pour ce faire, nous proposons des algorithmes à base de pondération de variables dans un paradigme de classification automatique sous contraintes. Deux visions sont développées à cet effet, (1) une vision globale en se basant sur la satisfaction relaxée des contraintes intégrées directement dans la fonction objective du modèle proposé ; et (2) une deuxième vision, qui est locale et basée sur le contrôle stricte de violation de ces dites contraintes. Les deux approches évaluent la pertinence des variables par des poids appris en cours de la construction du modèle de classification. En outre de cette tâche principale de sélection de variables, nous nous intéressons au traitement de la redondance. Pour traiter ce problème, nous proposons une méthode originale combinant l’information mutuelle et un algorithme de recherche d’arbre couvrant construit à partir de variables pertinentes en vue de l’optimisation de leur nombre au final. Finalement, toutes les approches développées dans le cadre de cette thèse sont étudiées en termes de leur complexité algorithmique d’une part et sont validés sur des données de très grande dimension face et des méthodes connues dans la littérature d’autre part.
Type de document :
Thèse
Artificial Intelligence [cs.AI]. INSA de Lyon, 2013. English. 〈NNT : 2013ISAL0015〉
Liste complète des métadonnées

Littérature citée [75 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-01371515
Contributeur : Abes Star <>
Soumis le : lundi 26 septembre 2016 - 10:33:09
Dernière modification le : vendredi 10 novembre 2017 - 01:20:21
Document(s) archivé(s) le : mardi 27 décembre 2016 - 12:48:30

Fichier

these.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01371515, version 1

Collections

Citation

Mohammed Hindawi. Feature selection for semi-supervised data analysis in decisional information systems. Artificial Intelligence [cs.AI]. INSA de Lyon, 2013. English. 〈NNT : 2013ISAL0015〉. 〈tel-01371515〉

Partager

Métriques

Consultations de la notice

183

Téléchargements de fichiers

158