Stratégies de bandit pour les systèmes de recommandation

Jonathan Louëdec

Thèse Année : 2016

Bandit strategies for recommender systems

Stratégies de bandit pour les systèmes de recommandation

(1, 2)

1
2

Jonathan Louëdec

Fonction : Auteur
PersonId : 1100022

Institut de recherche en informatique de Toulouse

Institut de Mathématiques de Toulouse UMR5219

Résumé

Current recommender systems need to recommend items that are relevant to users (exploitation), but they must also be able to continuously obtain new information about items and users (exploration). This is the exploration / exploitation dilemma. Such an environment is part of what is called "reinforcement learning". In the statistical literature, bandit strategies are known to provide solutions to this dilemma. The contributions of this multidisciplinary thesis the adaptation of these strategies to deal with some problems of the recommendation systems, such as the recommendation of several items simultaneously, taking into account the aging of the popularity of an items or the recommendation in real time.

Les systèmes de recommandation actuels ont besoin de recommander des objets pertinents aux utilisateurs (exploitation), mais pour cela ils doivent pouvoir également obtenir continuellement de nouvelles informations sur les objets et les utilisateurs encore peu connus (exploration). Il s'agit du dilemme exploration/exploitation. Un tel environnement s'inscrit dans le cadre de ce que l'on appelle " apprentissage par renforcement ". Dans la littérature statistique, les stratégies de bandit sont connues pour offrir des solutions à ce dilemme. Les contributions de cette thèse multidisciplinaire adaptent ces stratégies pour appréhender certaines problématiques des systèmes de recommandation, telles que la recommandation de plusieurs objets simultanément, la prise en compte du vieillissement de la popularité d'un objet ou encore la recommandation en temps réel.

Mots clés

Bandit strategies Real-time learning Recommender systems

Stratégies de bandit Apprentissage en temps réel Systèmes de recommandation Recherche d'information

Domaines

Apprentissage [cs.LG]

Fichier principal

2016TOU30257b.pdf (1.11 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-01591588

Soumis le : jeudi 21 septembre 2017-15:37:19

Dernière modification le : samedi 27 avril 2024-03:18:44

Dates et versions

tel-01591588 , version 1 (21-09-2017)

Identifiants

HAL Id : tel-01591588 , version 1

Citer

Jonathan Louëdec. Stratégies de bandit pour les systèmes de recommandation. Apprentissage [cs.LG]. Université Paul Sabatier - Toulouse III, 2016. Français. ⟨NNT : 2016TOU30257⟩. ⟨tel-01591588⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-TLSE2 CNRS INSA-TOULOUSE INSMI STAR IMT UT1-CAPITOLE TEL-INSATOULOUSE INSA-GROUPE IRIT TOULOUSE-INP UNIV-UT3 UT3-TOULOUSEINP

229 Consultations

599 Téléchargements

Bandit strategies for recommender systems

Stratégies de bandit pour les systèmes de recommandation

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager