Selection Bias Correction in Supervised Learning with Importance Weight

Résumé : Dans la théorie de l'apprentissage supervisé, l'hypothèse selon laquelle l'échantillon de d'apprentissage et de test proviennent de la même distribution de probabilité, joue un rôle crucial. Malheureusement, cette hypothèse essentielle est souvent violée en présence d'un biais de sélection. Dans ce contexte, les algorithmes d'apprentissage supervisés standards peuvent souffrir d'un biais significatif. Dans cette thèse, nous abordons le problème du biais de sélection en apprentissage supervisé en utilisant la méthode de pondération de l'importance ("importance weighting" en anglais).Dans un premier temps, nous présentons le cadre formel de l'apprentissage supervisé et discutons des effets potentiellement néfastes du biais sur les performances prédictives. Nous étudions ensuite en détail comment les techniques de pondération de l'importance permettent, sous certaines hypothèses, de corriger le biais de sélection durant l'apprentissage de modèles génératifs et discriminants. Nous étudions enfin le potentiel des réseaux bayésiens comme outils de représentation graphique des relations d'indépendances conditionnelles entre les variables du problème et celles liées au mécanisme de sélection lui-même. Nous illustrons sur des exemples simples comment la graphe, construit avec de la connaissance experte, permet d'identifier a posteriori un sous-ensemble restreint de variables sur lesquelles « agir » pour réduire le biais.Dans un second temps, nous accordons une attention particulière au « covariate shift », i.e. un cas particulier de biais de sélection où la distribution conditionnelle P(y|x) est invariante entre l'échantillon d'apprentissage et de test. Nous proposons deux méthodes pour améliorer la pondération de l'importance en présence de covariate shift. Nous montrons d'abord que le modèle non pondéré est localement moins biaisé que le modèle pondéré sur les échantillons faiblement pondérés, puis nous proposons une première méthode combinant les modèles pondérés et non pondérés afin d'améliorer les performances prédictives dans le domaine cible. Enfin, nous étudions la relation entre le covariate shift et le problème des données manquantes dans les jeux de données de petite taille et proposons une seconde méthode qui utilise des techniques d'imputation de données manquantes pour corriger le covariate shift dans des scénarios simples mais réalistes. Ces méthodes sont validées expérimentalement sur de nombreux jeux de données
Type de document :
Thèse
Artificial Intelligence [cs.AI]. Université de Lyon, 2017. English. 〈NNT : 2017LYSE1118〉
Liste complète des métadonnées

Littérature citée [89 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-01661470
Contributeur : Abes Star <>
Soumis le : mardi 12 décembre 2017 - 00:26:24
Dernière modification le : mercredi 19 septembre 2018 - 09:59:36

Fichier

TH2017TranVanTinh.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01661470, version 1

Citation

Van-Tinh Tran. Selection Bias Correction in Supervised Learning with Importance Weight. Artificial Intelligence [cs.AI]. Université de Lyon, 2017. English. 〈NNT : 2017LYSE1118〉. 〈tel-01661470〉

Partager

Métriques

Consultations de la notice

188

Téléchargements de fichiers

388