Industrial Recommendation Systems in Big Data Context: Efficient Solutions for Cold- Start issues

Ferdaous Hioud

Résumé

Nowadays, users are inundated with the large volume of data flowing in the web. This information overload makes users unable to locate and to find the wanted information at the right moment, especially when they lack sufficient experience to deal with these immense amounts of data. Lately, sophisticated tools were developed to deal with these emergent challenges, among them we find Recommender Systems ( RSs). This thesis deals with automatic RSs that aim to provide items that fit with users’ preferences. These tools are increasingly used by many content platforms to assist users to access to the needed information. In fact, to perform correctly a RS needs to model user’s profile by acquiring information about user’s interests as the visited content and/or user’s actions (clicks, comments, etc). However, modeling these interests is considered as a hard task, especially when the RS has no prior knowledge about a user or an item (cold-start issue). Therefore, modeling user’s profile is complex, since the generated recommendations are often far away from the real user’s interests. In addition, existing approaches are unable to ensure good performance on platforms with high traffic and which host a huge volume of data. In order to solve these issues and to obtain more relevant recommendations, in this thesis we made three main contributions: 1) proposing a CCSDW method to compute criteria and items weights to be used during the profiling of new users to better understand their preferences and to tackle the new-user issue 2) presenting a hybrid RS based on a linear combination of CF and an enhanced CB approach using HFSM to compensate the lack of data about new items and to deal also with long tail issue 3) implementing a distributed recommendation engine with Apache Spark to enhance the scalability and response time. To demonstrate the interest of the proposed approaches, they were evaluated using different data sets in term of coverage and recommendation accuracy. Furthermore, the distributed algorithms were evaluated to validate their scalability in an industrial context.

De nos jours, les utilisateurs sont inondés avec le grand volume de données circulant sur le Web. Cette surcharge d'information rend les utilisateurs incapables de localiser et de trouver l’information recherchée au bon moment, surtout lorsqu'ils manquent d'expérience suffisante pour faire face à ces quantités immenses de données. Dernièrement, des outils sophistiqués ont été développés pour faire face à ces nouveaux défis, parmi lesquels on trouve les Systèmes de Recommandations (SRs). Cette thèse concerne les SRs automatiques, qui visent à suggérer des produits adaptés aux préférences des utilisateurs. Ces outils sont de plus en plus utilisés par de nombreux utilisateurs pour accéder à la bonne information. En fait, pour fonctionner correctement, les SRs doivent modeliser le profil utilisateur en collectant des informations sur l'utilisateur et ses interêts comme le contenu déjà visité et / ou les actions de l'utilisateur (clics, commentaires, etc.). Cependant, la modélisation de ces tâches est difficile. Par conséquent, la modélisation est complexe et les recommandations sont souvent éloignées des intérêts réels des utilisateurs. De plus, les approches existantes sont incapables d'assurer une haute performance sur les platesformes à fort trafic et qui hébergent un volume de données énorme. Afin de résoudre ces problèmes et d'obtenir des recommandations plus pertinentes, cette thèse comporte trois contributions principales: 1) proposer une méthode CCSDw pour calculer les poids des critères ainsi que des items afin de les utiliser lors du profilage des nouveaux utilisateurs, ce qui permettra de mieux comprendre les préférences des utilisateurs et résoudre le problème du nouveau utilisateur 2) présenter un SR hybrid basé sur une combinaison linéaire de l’approche du Filtrage Collaborative (FC) et une approche basé sur le contenu qui utilise une méthode de selection hybride des caractéristiques (HFSM) pour compenser le manque de données sur les nouveaux articles et pour traiter également le problème des produits à faible demande 3) mettre en oeuvre un moteur de recommandation distribué avec Apache Spark pour améliorer l'évolutivité et le temps de réponse. Pour démontrer l'intérêt des approches proposées, elles ont été évaluées en termes de couverture et d'exactitude de la recommandation, en utilisant différents jeu de données. De plus, les algorithmes distribués ont été évalués pour valider son évolutivité dans un contexte industriel.

Industrial Recommendation Systems in Big Data Context: Efficient Solutions for Cold- Start issues

Les systèmes de recommandations industrielles dans un contexte du Big Data: des solutions efficaces pour le problèmes de démarrage à froid

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager