Industrial Recommendation Systems in Big Data Context: Efficient Solutions for Cold- Start issues
Les systèmes de recommandations industrielles dans un contexte du Big Data: des solutions efficaces pour le problèmes de démarrage à froid
Résumé
Nowadays, users are inundated with the large volume of data flowing in the web. This information
overload makes users unable to locate and to find the wanted information at the right moment, especially
when they lack sufficient experience to deal with these immense amounts of data. Lately, sophisticated
tools were developed to deal with these emergent challenges, among them we find Recommender Systems
( RSs).
This thesis deals with automatic RSs that aim to provide items that fit with users’ preferences. These tools
are increasingly used by many content platforms to assist users to access to the needed information. In
fact, to perform correctly a RS needs to model user’s profile by acquiring information about user’s
interests as the visited content and/or user’s actions (clicks, comments, etc). However, modeling these
interests is considered as a hard task, especially when the RS has no prior knowledge about a user or an
item (cold-start issue). Therefore, modeling user’s profile is complex, since the generated
recommendations are often far away from the real user’s interests. In addition, existing approaches are
unable to ensure good performance on platforms with high traffic and which host a huge volume of data.
In order to solve these issues and to obtain more relevant recommendations, in this thesis we made three
main contributions: 1) proposing a CCSDW method to compute criteria and items weights to be used
during the profiling of new users to better understand their preferences and to tackle the new-user issue 2)
presenting a hybrid RS based on a linear combination of CF and an enhanced CB approach using HFSM
to compensate the lack of data about new items and to deal also with long tail issue 3) implementing a
distributed recommendation engine with Apache Spark to enhance the scalability and response time.
To demonstrate the interest of the proposed approaches, they were evaluated using different data sets in
term of coverage and recommendation accuracy. Furthermore, the distributed algorithms were evaluated
to validate their scalability in an industrial context.
De nos jours, les utilisateurs sont inondés avec le grand volume de données circulant sur le Web. Cette
surcharge d'information rend les utilisateurs incapables de localiser et de trouver l’information recherchée
au bon moment, surtout lorsqu'ils manquent d'expérience suffisante pour faire face à ces quantités
immenses de données. Dernièrement, des outils sophistiqués ont été développés pour faire face à ces
nouveaux défis, parmi lesquels on trouve les Systèmes de Recommandations (SRs).
Cette thèse concerne les SRs automatiques, qui visent à suggérer des produits adaptés aux préférences des
utilisateurs. Ces outils sont de plus en plus utilisés par de nombreux utilisateurs pour accéder à la bonne
information. En fait, pour fonctionner correctement, les SRs doivent modeliser le profil utilisateur en
collectant des informations sur l'utilisateur et ses interêts comme le contenu déjà visité et / ou les actions
de l'utilisateur (clics, commentaires, etc.). Cependant, la modélisation de ces tâches est difficile. Par
conséquent, la modélisation est complexe et les recommandations sont souvent éloignées des intérêts réels
des utilisateurs. De plus, les approches existantes sont incapables d'assurer une haute performance sur les
platesformes à fort trafic et qui hébergent un volume de données énorme.
Afin de résoudre ces problèmes et d'obtenir des recommandations plus pertinentes, cette thèse comporte
trois contributions principales: 1) proposer une méthode CCSDw pour calculer les poids des critères ainsi
que des items afin de les utiliser lors du profilage des nouveaux utilisateurs, ce qui permettra de mieux
comprendre les préférences des utilisateurs et résoudre le problème du nouveau utilisateur 2) présenter un
SR hybrid basé sur une combinaison linéaire de l’approche du Filtrage Collaborative (FC) et une approche
basé sur le contenu qui utilise une méthode de selection hybride des caractéristiques (HFSM) pour
compenser le manque de données sur les nouveaux articles et pour traiter également le problème des
produits à faible demande 3) mettre en oeuvre un moteur de recommandation distribué avec Apache Spark
pour améliorer l'évolutivité et le temps de réponse.
Pour démontrer l'intérêt des approches proposées, elles ont été évaluées en termes de couverture et
d'exactitude de la recommandation, en utilisant différents jeu de données. De plus, les algorithmes
distribués ont été évalués pour valider son évolutivité dans un contexte industriel.
Mots clés
Recommender Systems (RSs)
Collaborative Filtering (CF)
Content-based (CB)
Coefficient Correlation Standard Deviation integrated Weights (CCSDW)
Cold-start
long tail
large scale.
Système de Recommandation (SRs)
Filtrage Collaboratif (FC)
recommendation basé sur contenu (BC)
Hybrid
Active Learning (AL)
Coefficient Correlation Standar Deviation integrated Weights (CCSDw)
Hybrid Features Selection Method (HFSM)
démmarage à froid
produits à faible demande (longue queue)
Big Data
recommandation à grande échelle.
Origine : Fichiers produits par l'(les) auteur(s)