Évaluation hors-ligne d'un modèle prédictif : application aux algorithmes de recommandation et à la minimisation de l'erreur relative moyenne

Résumé : L'évaluation hors-ligne permet d'estimer la qualité d'un modèle prédictif à partir de données historiques. En pratique, cette approche estime la qualité d'un modèle avant sa mise en production, sans interagir avec les clients ou utilisateurs. Pour qu'une évaluation hors-ligne soit pertinente, il est nécessaire que les données utilisées soient sans biais, c'est-à-dire représentatives des comportements observés une fois le modèle en production. Dans cette thèse, nous traitons le cas où les données à disposition sont biaisées. A partir d'expériences réalisées au sein de Viadeo nous proposons une nouvelle procédure d'évaluation hors-ligne d'un algorithme de recommandation. Cette nouvelle approche réduit l'influence du biais sur les résultats de l'évaluation hors-ligne. Nous introduisons ensuite le contexte d' Explanatory Shift, qui correspond à une situation dans laquelle le biais réside dans la distribution de la variable cible. Des expériences menées sur les données du site de e-commerce Cdiscount et la base de données Newsgroup montrent alors que, sous certaines hypothèses, il est possible d'inférer la distribution de la variable cible afin de corriger la non-représentativité de l'échantillon d'apprentissage à disposition. De façon plus théorique, nous nous intéressons ensuite au rôle de la fonction de perte utilisée pour la sélection d'un modèle à partir de la méthode de minimisation du risque empirique. Plus précisément, nous détaillons le cas particulier de la minimisation de l'erreur relative moyenne et nous introduisons le concept de régression MAPE (Mean Absolute Percentage Error). Les travaux réalisés dans ce cadre portent alors sur la consistance de l'estimateur de minimisation du risque empirique pour la régression MAPE, et sur la régression MAPE régularisée en pratique. Les expériences menées sur des données simulées ou extraites du réseau social professionnel Viadeo montrent les avantages de la régression MAPE et permettent d'illustrer des propriétés théoriques de l'estimateur obtenu.
Type de document :
Thèse
Machine Learning [stat.ML]. Université paris 1 Panthéon-La Sorbonne, 2016. Français
Liste complète des métadonnées


https://tel.archives-ouvertes.fr/tel-01395290
Contributeur : Arnaud De Myttenaere <>
Soumis le : mercredi 16 novembre 2016 - 12:01:39
Dernière modification le : jeudi 17 novembre 2016 - 01:05:14
Document(s) archivé(s) le : jeudi 16 mars 2017 - 11:36:33

Fichiers



Identifiants

  • HAL Id : tel-01395290, version 1

Collections

Citation

Arnaud De Myttenaere. Évaluation hors-ligne d'un modèle prédictif : application aux algorithmes de recommandation et à la minimisation de l'erreur relative moyenne. Machine Learning [stat.ML]. Université paris 1 Panthéon-La Sorbonne, 2016. Français. 〈tel-01395290〉

Partager

Métriques

Consultations de
la notice

667

Téléchargements du document

1711