Leveraging User-Generated Content for Enhancing and personalizing News Recommendation. - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2015

Leveraging User-Generated Content for Enhancing and personalizing News Recommendation.

Analyse des opinions dans les portails d’informations pour personnaliser les systèmes de recommandation.

Résumé

Online news websites are becoming one of the most popular and influential social media platforms allowing people to easily access information about daily life topics, share their opinions on different issues, and give feedback on published content. The tremendous increase of published news requires effective recommendation techniques that help users to find interesting news articles that match with their interests. Thus, users are continuously encouraged to participate to online news websites and keep sharing their opinions, which represent a valuable source of social information. In this thesis, we have investigated how to exploit user-generated-content for personalized news recommendation purpose. The intuition behind this line of research is that the opinions provided by users, on news websites, represent a strong indicator about their profiles. By mining such content, we can extract valuable information about the domains of interests of users, their inclination towards a certain version of news articles, their political orientation, their favorite sport teams, their preferences, and many other interesting features. Furthermore, such content can also be used to enrich the content of news articles, particularly for those describing controversial news articles that can reveal various aspects that are not well described or even not found in their content. Thus, user-generated-content is the core component of our work. This thesis is divided into three main parts, as described in the bellow, which represent the different steps of developing a news recommendation system based on user-generated-content. In the first part, we have developed a fine-grained model that captures both users and article profiles. The profile of each user is extracted from all the opinions and the reactions that are provided on the news websites, while the profile of an article is extracted from its content. A profile is mainly composed of the entities, the aspects, and the sentiments expressed in the corresponding content. While the extraction of entities is a well-established problem, aspect extraction often relies on supervised techniques, which are domain dependent. For a more general solution, we have proposed an unsupervised technique for aspect extraction from opinions and articles. We have investigated two types of models in three different applications. The first model, called a sentiment-dependent profile, exploits the sentiments related to each entity and aspect to define the orientations of users towards a specific trend. For this purpose, we have built a knowledge base of trends, more specifically of political orientations, that guides the extraction of profiles in an unsupervised manner. We have assessed the accuracy of the extracted profiles on two datasets crawled from CNN and Al-Jazeera and the results show that our approach gives high quality results. The second model, called a sentiment-independent profile, focuses only on entities and aspects and is used on the purpose of news recommendation. This model was used to define both users’ interests and the content of news articles. We have test it on a large test collection based on real users’ activities in four news websites, namely The Independent3, The Telegraph4, CNN and Al-Jazeera. The results show that our model outperforms baseline models achieving high accuracy. In the third application, we have used a combination of the two former models for news recommendation purpose: the sentiment-independent profile model to define users’ interests is combined with the sentiment-dependent profile model to describe the content of news articles. The main goal of this application was to give a method that deal with the problem of redundancy on the list of recommended news articles. For this purpose, we have used a diversification model on news articles profiles to reduce the redundancy of the list of recommended news articles. We have tested our approach on real users’ activities on four news websites CNN, Al-Jazeera, The Telegraph, and The Independent. The results show that diversification improve the quality of recommended news articles. In the second part, we have focused on how to enrich the article profiles with user generated-content. The idea behind is to exploit the rich structure of opinions to tailor the articles to the specific needs and interests of users. The main challenge of this task is how to select the opinions used for profile enrichment. The large number and the noisy nature of opinions calls for an effective ranking strategy. To achieve this goal, we have proposed a novel-scoring model that ranks opinions based on their relevance and prominence, where the prominence of an opinion is based on its relationships with other opinions. To find prominent opinions, we have (1) suggested a directed graph model of opinions where each link represents the sentiment an opinion expresses about another opinion (2) built a new variation of the PageRank algorithm that increases the scores of opinions along links with positive sentiments and decreases them as well as links with negative sentiments. We have tested the effectiveness of our model through extensive experiments using three datasets crawled from CNN, The Independent, and The Telegraph news websites. The experiments showed that our scoring model selects meaningful and insightful opinions. In the third part, we have focused on the development of a recommendation technique that exploits the results of the previous part and use them to enrich the content of news articles. We have tested various methods of leveraging opinions on the content of news articles. Concretely, we have worked on two main aspects. Firstly, we have only focused on sentiment-independent profiles, which consist on entities and aspects, and investigated of thoroughly the profile construction process. Secondly, we have enhanced the opinion ranking strategy described earlier by proposing an opinion diversification model based on authorities, semantic and sentiment diversification. The goal is to deal with redundant information and have a wide coverage of topic aspects. We have tested our approach by running large experiments on four datasets crawled from CNN, The Independent, The Telegraph, and Al-Jazeera. The results show that our model provide effective recommendation, particularly when enriching the content of news articles with a diversified set of opinions.
Les sites de presse en ligne deviennent une des plateformes les plus populaires et les plus influentes des médias sociaux. Ils permettent aux gens d'accéder facilement aux informations sur des sujets de la vie quotidienne, de partager leurs opinions sur différentes questions, et de donner des commentaires sur le contenu publié. L'augmentation considérable des informations publiées nécessite des techniques de recommandation efficaces qui aident les utilisateurs à trouver les articles de presse qui correspondent à leurs intérêts. Ainsi, les utilisateurs sont constamment encouragés à participer à des sites de presse en ligne et à continuer à partager leurs opinions, qui représentent elles-mêmes une source précieuse d'information sociale. Dans cette thèse, nous avons étudié comment exploiter les contenus générés par les utilisateurs à des fins de recommandation personnalisée. L'intuition derrière cette ligne de recherche est que les opinions fournies par les utilisateurs, sur les sites de presse représentent un indicateur fort sur leurs profils. En exploitant ce type de contenu, nous pouvons extraire des informations précieuses sur les domaines d'intérêts des utilisateurs, leur inclination vers une certaine sorte d'articles de presse, leur orientation politique, leurs équipes sportives préférées, leurs préférences, et de nombreuses autres caractéristiques intéressantes. En outre, ce contenu peut également être utilisé pour enrichir le contenu des articles de presse eux-mêmes. En particulier, le contenu ajouté par les utilisateurs peut permettre de révéler des aspects qui ne sont pas bien décrits ou même ne se trouvent pas du tout dans l'article. Le contenu généré par l'utilisateur est le composant de base de notre travail. Cette thèse est divisée en trois parties principales qui représentent les différentes étapes du développement d'un système de recommandation d'articles de presse sur la base des contenus joutés par les utilisateurs. Dans la première partie, nous avons développé un modèle à grain fin qui capture les deux profils de l'article et de l'utilisateur. Le profil de chaque utilisateur est extrait de toutes les opinions et de toutes les réactions qui sont fournies sur les sites de presse étudiés, tandis que le profil d'un article est extrait de son contenu. Un profil est composé principalement des entités, des aspects et des sentiments exprimés dans le contenu correspondant. Bien que l'extraction d'entités est un problème bien établi, l'extraction d'aspect repose souvent sur des techniques supervisées, qui dépendent du domaine. Pour une solution plus générale, nous avons proposé une technique non-supervisée pour l'extraction des aspects, des opinions et des articles. Nous avons étudié deux types de modèles dans trois applications différentes. Le premier modèle, appelé profil dépendant du sentiment, exploite les sentiments liés à chaque entité et l'aspect de définir les orientations des utilisateurs vers une tendance spécifique. A cet effet, nous avons construit une base de connaissances des tendances, plus précisément des orientations politiques, qui guide l'extraction des profils d'une manière non supervisée. Nous avons évalué la précision des profils extraits sur deux ensembles de données glanées sur CNN et Al-Jazeera et les résultats montrent que notre approche donne des résultats de haute qualité. Le second modèle, appelé un profil indépendant du sentiment , se concentre uniquement sur les entités et les aspects et est utilisé avec un objectif de recommandation. Ce modèle a été utilisé pour définir à la fois les intérêts des utilisateurs et le contenu des articles de presse. Nous l'avons testé sur une grande collection d'articles et sur les activités réelles des utilisateurs dans quatre sites de presse, à savoir The Independent, The Telegraph, CNN et Al-Jazeera. Les résultats montrent que notre modèle surpasse les modèles existants et atteint une grande précision. Dans la troisième application, nous avons utilisé une combinaison des deux modèles précédent pour la recommandation d'articles de presse : le profil indépendant du sentiment pour définir les intérêts des utilisateurs est combiné avec le modèle de profil dépendant du sentiment pour décrire le contenu des articles de presse. L'objectif principal de cette application était de donner une méthode qui traite le problème de la redondance sur la liste des articles de presse recommandés. A cet effet, nous avons utilisé un modèle de diversification des profils des articles de presse pour réduire la redondance de la liste des articles recommandés. Nous avons testé notre approche sur les activités réelles des utilisateurs sur quatre sites de presse CNN, Al-Jazeera, The Telegraph, et The Independent. Les résultats montrent que la diversification améliore la qualité des articles de presse recommandés. Dans la deuxième partie, nous nous sommes concentrés sur la façon d'enrichir les profils d'article avec le contenu ajouté par les utilisateurs. L'idée consiste à exploiter la structure riche des opinions pour adapter la recommandation des articles aux besoins et aux intérêts de chaque utilisateur. Le principal défi de cette tâche consiste à savoir comment sélectionner les opinions utilisées pour le profil d'enrichissement. Le grand nombre et la nature bruitée des opinions demande une stratégie efficace de classement. Pour atteindre cet objectif, nous avons proposé un nouveau modèle de classement des avis en fonction de leur pertinence et de leur importance, où l'importance d'une opinion est basée sur ses relations avec d'autres opinions. Pour trouver des avis importants, nous avons (1) proposé un modèle de graphe orienté d'opinions où chaque lien représente le sentiment qu'une opinion exprime sur une autre opinion (2) construit une nouvelle variante de l'algorithme PageRank qui augmente ou diminue les scores des opinions liens selon qu'elles sont liées avec des sentiments positifs ou négatifs. Nous avons testé l'efficacité de notre modèle par le biais de vastes expériences en utilisant trois ensembles de données glanées à partir des sites de presse de CNN, The Independent, et The Telegraph. Les expériences ont montré que notre modèle de classement sélectionne des avis utiles et perspicaces. Dans la troisième partie, nous nous sommes concentrés sur le développement d'une technique de recommandation qui exploite les résultats de la seconde partie afin d'enrichir le contenu des articles de presse. Nous avons testé différentes méthodes pour tirer parti des avis sur le contenu des articles de presse. Concrètement, nous avons travaillé sur deux aspects principaux. Tout d'abord, nous avons seulement mis l'accent sur les profils indépendants du sentiment, entités et aspects seulement, et étudié le processus de construction du profil. Deuxièmement, nous avons amélioré la stratégie de classement des opinions décrite précédemment en proposant un modèle de diversification basé sur l'autorité de chaque utilisateur. Nous avons testé notre approche à grande échelle avec quatre ensembles de données glanées sur CNN, The Independent, The Telegraph et Al-Jazeera. Les résultats montrent que notre modèle fournit des recommandations précises, en particulier lorsque le contenu des articles de presse est enrichi avec un ensemble diversifié d'opinions.
Fichier principal
Vignette du fichier
These_Youssef_Meguebli_2015.pdf (5.7 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-01302901 , version 1 (15-04-2016)

Licence

Paternité - Pas d'utilisation commerciale - Pas de modification

Identifiants

  • HAL Id : tel-01302901 , version 1

Citer

Youssef Meguebli. Leveraging User-Generated Content for Enhancing and personalizing News Recommendation.. Information Retrieval [cs.IR]. CentraleSupelec, 2015. English. ⟨NNT : ⟩. ⟨tel-01302901⟩
380 Consultations
129 Téléchargements

Partager

Gmail Facebook X LinkedIn More