Data veracity assessment: enhancing Truth Discovery using a priori knowledge

Valentina Beretta

Résumé

The notion of data veracity is increasingly getting attention due to the problem of misinformation and fake news. With more and more published online information it is becoming essential to develop models that automatically evaluate information veracity. Indeed, the task of evaluating data veracity is very difficult for humans. They are affected by confirmation bias that prevents them to objectively evaluate the information reliability. Moreover, the amount of information that is available nowadays makes this task time-consuming. The computational power of computer is required. It is critical to develop methods that are able to automatize this task. In this thesis we focus on Truth Discovery models. These approaches address the data veracity problem when conflicting values about the same properties of real-world entities are provided by multiple sources. They aim to identify which are the true claims among the set of conflicting ones. More precisely, they are unsupervised models that are based on the rationale stating that true information is provided by reliable sources and reliable sources provide true information. The main contribution of this thesis consists in improving Truth Discovery models considering a priori knowledge expressed in ontologies. This knowledge may facilitate the identification of true claims. Two particular aspects of ontologies are considered. First of all, we explore the semantic dependencies that may exist among different values, i.e. the ordering of values through certain conceptual relationships. Indeed, two different values are not necessary conflicting. They may represent the same concept, but with different levels of detail. In order to integrate this kind of knowledge into existing approaches, we use the mathematical models of partial order. Then, we consider recurrent patterns that can be derived from ontologies. This additional information indeed reinforces the confidence in certain values when certain recurrent patterns are observed. In this case, we model recurrent patterns using rules. Experiments that were conducted both on synthetic and real-world datasets show that a priori knowledge enhances existing models and paves the way towards a more reliable information world. Source code as well as synthetic and real-world datasets are freely available.

La notion de véracité des données retient de plus en plus l'attention en raison du problème de la désinformation. Avec de plus en plus d'informations en ligne publiées, il devient essentiel de développer des modèles qui évaluent automatiquement la véracité des informations. En effet, l'évaluation de la véracité des données est très difficile pour l'être humain. Il est affecté par le biais de confirmation qui lui empêche d'évaluer objectivement la fiabilité des informations. De plus, la quantité d'informations disponibles de nos jours rend cette tâche difficile. La puissance de calcul de l'ordinateur est donc necessaire. Il est essentiel de développer des méthodes capables d’automatiser cette tâche. Dans cette thèse, nous nous concentrons sur les modèles de découverte de la vérité. Ces approches résolvent le problème de la véracité des données lorsque des valeurs conflictuelles concernant les mêmes propriétés d'entités du monde réel sont fournies par plusieurs sources. Ils visent à identifier les valeures véritables parmi celles qui sont en conflit. Plus précisément, il s’agit de modèles non supervisés qui reposent sur l’argument selon lequel les informations vraies sont fournies par des sources fiables et les sources fiables fournissent des informations vraies. La contribution principale de cette thèse consiste à améliorer les modèles de découverte de la vérité en considérant à priori les connaissances exprimées dans des ontologies. Cette connaissance peut faciliter l'identification de assertions vrais. Deux aspects particuliers des ontologies sont considérés. La prise en compte de la hiérarchisation des concepts de l’ontologie et l’identification de motifs dans les connaissances qui permet, en exploitant certaines règles d’association, de renforcer la confiance dans certaines assertions. Des expériences menées à la fois sur des ensembles de données synthétiques et réels ont montré que la connaissance a priori améliore les modèles existants et ouvre la voie à un monde de l'information plus fiable. Le code de calcul ainsi que les jeux de données synthétiques et réels sont rendus disponibles à la communauté.

Data veracity assessment: enhancing Truth Discovery using a priori knowledge

Evaluation de la véracité des données: améliorer la découverte de la vérité en utilisant des connaissances a priori

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager