, Il nécessite l'installation du compilateur Java (le JDK 1.8 56 ), de Python 57 avec les bibliothèques NewsPaper3k 58 et NLTK 59 . FactExtract est mis en application sur 15 sites web journalistiques sénégalais. Ces sites sont : Seneweb 60, Dans sa version actuelle, FactExtract [134] se présente sous la forme de fichiers JAR Java et d'un fichier Python téléchargeables gratuitement à sourceforge 55 pour les utilisateurs Windows, Mac ou Linux, vol.61
, La commande suivante est un exemple d'exécution de FactExtract
, En effet, le mode full permet d'effectuer une extraction sans critères, c'est-à-dire, d'extraire tous les articles même ceux déjà extraits. Le mode nouveau lui, permet de n'extraire que ceux non existants dans la
, CHAPITRE, vol.4
,
,
,
,
, 3.5.1.2. jeux de données réelles (SnDataset)
, Résultats sur les données réelles issues de la presse sénégalaise
,
Automation of Fact-Checking: State of the Art, Obstacles and Perspectives, Dependable, Autonomic and Secure Computing, 15th Intl Conf on Pervasive Intelligence & Computing, 3rd Intl Conf on Big Data Intelligence and Computing and Cyber Science and Technology Congress, p.2017, 2017. ,
, IEEE 15th Intl, pp.1314-1317
SenFact algorithm: Fact-checking by the confrontation of opinions, 13th International Conference on Natural Computation, Fuzzy Systems and Knowledge Discovery (ICNC-FSKD), pp.2235-2241, 2017. ,
JFact : un générateur automatique de jeux de données synthétiques réalistes pour les algorithmes de fact-checking à fort conflit d'opinions, Conférence sur la Recherche en Informatique et ses Applications (CNRIA-2018), 2018. ,
FactExtract : Un extracteur automatique d'articles et de faits journalistiques à partir de la presse en ligne sénégalais, Conférence sur la Recherche en Informatique et ses Applications, 2018. ,
FactExtract: Automatic Collection and Aggregation of Articles and Journalistic Factual Claims from Online Newspaper, 2018 Fifth International Conference on Social Networks Analysis, Management and Security (SNAMS), pp.336-341, 2018. ,
SnVera: A New Algorithm for Automation of Fact-Checking in Web Journalism Context, 2018 Fifth International Conference on Social Networks Analysis, Management and Security (SNAMS), pp.342-348, 2018. ,
,
Towards an automation of the fact-checking in the journalistic web context Accepted for publication at the Int, Journal. of Big Data Intelligence, 2019. ,
Automatic Segmentation and tagging of facts in French for automated fact-checking, IEEE, 2018. ,
, Participation et communication oracle aux premiers Doctorales pluridisciplinaires de l'UGB sur le Thème : Recherche et Innovation pour un développement durable (Attestation de participation + 1er prix de la meilleure communication Oracle en sciences), 2017.
, Titre de la communication : Extraction, Fusion, Participation et communication orale aux doctoriales 2018 à L'université de Thiès, 2018.
, JSDC-3) à Abidjan-Côte d'ivoire (Attestation de participation) sur le thème : L'automatisation de la vérification des faits dans le contexte web journalistique : Le cas des algorithmes, Participation et communication orale aux Journées scientifiques du CAMES, 2017.
, Du 10 au 16 Octobre 2016 : Participation et communication orale à l'Atelier du Réseau EDP Modélisation-Contrôle, l'UFR SAT de l
Data integration with dependent sources, Proceedings of the 14th International Conference on Extending Database Technology, pp.401-412, 2011. ,
Corroborating information from disagreeing views, Proceedings of the third ACM international conference on Web search and data mining, pp.131-140, 2010. ,
URL : https://hal.archives-ouvertes.fr/inria-00429546
Presses de Sciences Po, 2e éd. entièrement mise à jour, 2016. ,
Vera: A platform for veracity estimation over web data, Proceedings of the 25th International Conference Companion on World Wide Web, pp.159-162, 2016. ,
URL : https://hal.archives-ouvertes.fr/hal-01855773
Les trois défis du Big Data-Éléments de réflexion, vol.3, pp.19-22, 2015. ,
Utilisation d'ontologies pour la quête de vérité: une étude expérimentale, IC2016: Ingénierie des Connaissances, 2016. ,
Un étiqueteur de rôles grammaticaux libre pour le français intégré à Apache UIMA, p.17, 2010. ,
, Conférence sur le Traitement Automatique des Langues Naturelles
SCRAPING THE WEB FOR ARTS AND HU-MANITIES, 2013. ,
Enjeux et usages du Big Data: Technologies, méthodes et mise en oeuvre, 2013. ,
L'émergence de la vérification des faits ou fact-checking, 2015. ,
, SemEval-2017 Task 8: RumourEval: Determining rumour veracity and support for rumours, 2017.
Integrating conflicting data: the role of source dependence, Proceedings of the VLDB Endowment, vol.2, pp.550-561, 2009. ,
URL : https://hal.archives-ouvertes.fr/hal-01855870
Growing triples on trees: an XML-RDF hybrid model for annotated documents. The VLDB Journal-The International Journal on Very Large Data Bases, vol.22, pp.589-613, 2013. ,
Online multi-task learning for semantic concept detection in video, ICIP, pp.186-190, 2016. ,
Growing triples on trees: an XML-RDF hybrid model for annotated documents. The VLDB Journal-The International Journal on Very Large Data Bases, vol.22, pp.589-613, 2013. ,
The State of Automated Factchecking, 2016. ,
Computational fact checking from knowledge networks, PloS one, vol.10, issue.6, p.128193, 2015. ,
Fact checking and analyzing the web, Proceedings of the 2013 ACM SIGMOD International Conference on Management of Data, pp.997-1000, 2013. ,
Newspapers Connect with Readers Through Multiple Digital Tools, Newspaper Research Journal, vol.32, pp.83-97, 2011. ,
news-please: A Generic News Crawler and Extractor, Proceedings of the 15th International Symposium of Information Science, 2017. ,
The quest to automate fact-checking, 2015. ,
Toward Automated Fact-Checking: Detecting Check-worthy Factual Claims by ClaimBuster, Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp.1803-1812, 2017. ,
ClaimBuster: The First-ever End-to-end Fact-checking System, Proceedings of the VLDB Endowment, p.10, 2017. ,
Twitie: An open-source information extraction pipeline for microblog text, 2013. ,
, Proceedings of the International Conference Recent Advances in Natural Language Processing RANLP 2013, pp.83-90
Évaluation intrinsèque et extrinsèque du nettoyage de pages Web, Traitement Automatique des Langues Naturelles, 2015. ,
Truth finding on the deep web: Is the problem solved, Proceedings of the VLDB Endowment, vol.6, pp.97-108, 2012. ,
, A Survey on Truth Discovery. ACM SIGKDD Explorations Newsletter, vol.17, issue.2, pp.1-16, 2015.
Détection de fausses informations dans les réseaux sociaux : l'utilité des fusions de connaissances, CORIA, pp.107-122, 2017. ,
L'information quotidienne face au Web 2.0. La stratégie multiplateforme de six quotidiens nationaux français. Études de communication. langages, information, médiations, pp.89-102, 2013. ,
, , 2011.
, Intégrer des connaissances linguistiques dans un CRF: application à l'apprentissage d'un segmenteur-étiqueteur du français, TALN, vol.1, p.321
Webbots, spiders, and screen scrapers: A guide to developing Internet agents with PHP/CURL, 2012. ,
« REVEAL Project-trust and credibility analysis, 2015. ,
, , 2015.
Extracting attributed verification and debunking reports from social media : mediaeval-2015 trust and credibility analysis of image and video, 2015. ,
A Survey on Data Extraction Using Java Application And Visual Basics Macros ,
Vers la génération de jeux de données synthétiques réalistes pour les motifs fréquents, Bases de Données Avancées (BDA'07), 2007. ,
Towards the verification of image integrity in online news, Multimedia & Expo Workshops (ICMEW), pp.1-6, 2015. ,
Making better informed trust decisions with generalized fact-finding, IJCAI'11 Proc. of the Twenty-Second international joint conference on Artificial Intelligence, pp.2324-2329, 2013. ,
Latent credibility analysis, Proceedings of the 22nd international conference on World Wide Web, pp.1009-1020, 2013. ,
Knowing what to believe (when you already know something) (2010), Proc. of the International Conference on Computational Linguistics (COLING'10), pp.877-885 ,
, Mort des journaux ou du journalisme, p.15, 2009.
Au-delà de la critique Big Data: La recherche sociale et politique à l'ère du numérique, 2015. ,
,
Modeling truth existence in truth discovery, Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp.1543-1552, 2015. ,
Automation of Fact-Checking: State of the Art, Obstacles and Perspectives, Dependable, Autonomic and Secure Computing, p.15, 2017. ,
, Intl Conf on Pervasive Intelligence & Computing, 3rd Intl Conf on Big Data Intelligence and Computing and Cyber Science and Technology Congress, pp.1314-1317
SenFact Algorithm: Fact-checking by the confrontation of opinions, 13th International Conference on Natural Computation, Fuzzy Systems and Knowledge Discovery, pp.2235-2241, 2017. ,
Réflexions sur le I de l'EMI. MEDIADOC, p.2, 2014. ,
Mining the web ,
, , 2003.
Meet the robots that factcheck, Columbia Journalism Review, 2014. ,
A general framework for scraping newspaper websites, 2016. ,
, , 2016.
Truth discovery algorithms: An experimental evaluation, 2014. ,
URL : https://hal.archives-ouvertes.fr/hal-01856193
, Liar, Liar Pants on Fire": A New Benchmark Dataset for Fakenews Detection, 2017.
,
Global detection of complex copying relationships between sources, Proceedings of the VLDB Endowment, vol.3, pp.1358-1369, 2010. ,
Semi-supervised truth discovery, Proceedings of the 20th international conference on World wide web, pp.217-226, 2011. ,
Textrunner: open information extraction on the web, Proceedings of Human Language Technologies: The Annual Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations, pp.25-26, 2007. ,
Truth discovery with multiple conflicting information providers on the web, Proc. of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2007. ,
, « Detecting image splicing in the wild (WEB) », Multimedia & Expo Workshops (ICMEW), 2015.
A bayesian approach to discovering truth from conflicting sources for data integration, Proceedings of the VLDB Endowment, vol.5, pp.550-561, 2012. ,
Une mise en perspective du phénomène Big Data. Revue Marocaine de Gestion et d'Economie, 2016. ,
A maximum entropy model for part-of-speech tagging, Conference on Empirical Methods in Natural Language Processing, 1996. ,
Fast and accurate part-of-speech tagging: The SVM approach revisited. Recent Advances in Natural Language Processing III, pp.153-162, 2004. ,
A tiered CRF tagger for Polish, Intelligent tools for building a scientific information platform, pp.215-230, 2013. ,
Vers une approche statistique pour l'indexation sémantique des documents multilingues, p.127, 2010. ,
Treetagger| a language independent part-of-speech tagger, vol.43, p.28, 1995. ,
Comparison of different POS Tagging Techniques (N-Gram, HMM and Brill's tagger) for Bangla, Advances and Innovations in Systems, Computing Sciences and Software Engineering, pp.121-126, 2007. ,
Robust French syntax analysis: reconciling statistical methods and linguistic knowledge in the Talismane toolkit (Doctoral dissertation, 2013. ,
Qtag: introducing the qualitative tagging system, Proceedings of the eighteenth conference on Hypertext and hypermedia, pp.35-36, 2007. ,
A simple rule-based part of speech tagger, Proceedings of the third conference on Applied natural language processing, pp.152-155, 1992. ,
Exploitation d'une ressource lexicale pour la construction d'un étiqueteur morphosyntaxique état-de-l 'art du français, Traitement Automatique des Langues Naturelles: TALN 2010, 2010. ,
Valeur et Véracité de la donnée : enjeux pour l'entreprise et défis pour le Data Scientist, 2015. ,
How to model fakenews, 2018. ,
, , 2016.
, , 2018.
, , 2018.
Measuring the reach of "fakenews" and online disinformation in Europe, 2018. ,
Data journalisme, entre pratique créative innovante et nouvelle médiation experte? Une analyse conjointe des discours et des productions journalistiques, XXI Congrès de la SFSIC Création, créativité et médiations, 2018. ,
Cadres d'usage des données par des développeurs, des data scientists et des data journalistes, 2018. ,
« Les métiers, entre traditions et modernité ». Documentaliste-Sciences de l'Information, vol.50, pp.42-59, 2013. ,
Analyse des discours législatifs et des portails open data territoriaux ». Les Enjeux de l'information et de la communication, vol.13, p.8, 2012. ,
Business artifacts: A data-centric approach to modeling business operations and processes, IEEE Data Eng. Bull, vol.32, issue.3, pp.3-9, 2009. ,
Social media and fakenews in the 2016 election, Journal of Economic Perspectives, vol.31, issue.2, pp.211-247, 2017. ,
The role of journalist and the performance of journalism: Ethical lessons from "fake" news (seriously), Journal of Mass Media Ethics, vol.22, issue.4, pp.300-314, 2007. ,
Europeans Seem to Be Better than Americans at Not Sharing Fake News, 2017. ,
Un guide critique des fakenews: de la comédie à la tragédie, Pouvoirs, issue.1, pp.99-119, 2018. ,
Fakenews et post-vérité: 20 textes pour comprendre la menace, 2018. ,
Watchdog journalism: The art of investigative reporting, 2009. ,
Le fact-checking ou la réinvention d'une pratique de vérification, Communication & langages, issue.2, pp.131-156, 2017. ,
Watergate: An exploration of the agenda-building process. Agenda setting. Readings on media, public opinion and policymaking, pp.277-289, 1991. ,
Science journalism and fact checking, Jcom, vol.10, issue.4, p.2, 2011. ,
The Hoax of the Twentieth Century: The case against the presumed extermination of European Jewry. Institute for Historical Review, 1985. ,
L'affaire russe": la démocratie américaine ébranlée, 2017. ,
Donald Trump et les services de renseignement: une relation sous tension. Revue LISA/LISA e-journal. Littératures, Histoire des Idées, Images, Sociétés du Monde Anglophone-Literature, History of Ideas, p.16, 2018. ,
Les nouveaux défis médiatiques, Pouvoirs, issue.3, pp.97-114, 2018. ,
Fakenews et post-vérité: 20 textes pour comprendre la menace, 2018. ,
Google and Facebook take aim at fakenews sites. The New York Times, vol.11, p.12, 2016. ,
FACTSHEET: Understanding the Promise and Limits of Automated Fact-Checking, Reuters Institute for the Study of Journalism, 2018. ,
Familiarity, Confidence, Trust: Problems and Perspectives. I Gambetta, 1988. ,
, Projet DAFNA: Datasets, Real-World Data sets
, Projet DAFNA: Datasets, synthetic data set generator
,
, Visité le 21, 2018.
, , 2018.
, , 2018.
,
Fact checking: Task definition and dataset construction, Proceedings of the ACL 2014 Workshop on Language Technologies and Computational Social Science, pp.18-22, 2014. ,
Automated Fact Checking: Task formulations, methods and future directions, 2018. ,
Truth of varying shades: Analyzing language in fake news and political fact-checking, Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pp.2931-2937, 2017. ,
Emergent: a novel data-set for stance classification, Proceedings of the 2016 conference of the North American chapter of the association for computational linguistics: Human language technologies, pp.1163-1168, 2016. ,
, FEVER: a largescale dataset for Fact Extraction and VERification, 2018.
, , 2017.
, Evidence Aggregation for Answer Re-Ranking in Open-Domain Question Answering
Language-aware truth assessment of fact candidates, Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, vol.1, pp.1009-1019, 2014. ,
, , 2018.
De l'étiquetage morpho-syntaxique au super-chunking: Levée d'ambiguïtés à l'aide de méthodes hybrides et de ressources lexicales riches ,
Une étude de cas pour l'étiquetage morpho-syntaxique de textes vietnamiens, Traitement Automatique des Langues Naturelles-TALN, 2003. ,
The Paris 7 annotated corpus for French: some experimental, Corpus Linguistics, 2001. ,
A second-order hidden Markov model for part-of-speech tagging, Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics, pp.175-182, 1999. ,
TnT: a statistical part-of-speech tagger, Proceedings of the sixth conference on Applied natural language processing, pp.224-231, 2000. ,
SVMTool: A general POS tagger generator based on Support Vector Machines, Proceedings of the 4th International Conference on Language Resources and Evaluation, 2004. ,
Feature-rich partof-speech tagging with a cyclic dependency network, Proceedings of the, 2003. ,
, Conference of the North American Chapter, vol.1, pp.173-180
, , 1997.
, Extensible Markup Language (XML). World Wide Web Journal, vol.2, issue.4, pp.27-66
Resource description framework (RDF) model and syntax specification, 1999. ,
, Washington Post, vol.16, 2018.
, , 2018.
, Découverte locale des mots vides dans des corpus bruts de langues inconnues, sans aucune ressource. Journées internationales d'Analyse statistique des données textuelles, vol.7, 2004.
,
, lxml: XML and HTML with Python, 2005.
Automation of Fact-Checking: State of the Art, Obstacles and Perspectives, Dependable, Autonomic and Secure Computing, p.15, 2017. ,
, Intl Conf on Pervasive Intelligence & Computing, 3rd Intl Conf on Big Data Intelligence and Computing and Cyber Science and Technology Congress, pp.1314-1317
SenFact algorithm: Fact-checking by the confrontation of opinions, 13th International Conference on Natural Computation, Fuzzy Systems and Knowledge Discovery (ICNC-FSKD), pp.2235-2241, 2017. ,
, IEEE
JFact : un générateur automatique de jeux de données synthétiques réalistes pour les algorithmes de fact-checking à fort conflit d'opinions, Conférence sur la Recherche en Informatique et ses Applications (CNRIA-2018), 2018. ,
FactExtract : Un extracteur automatique d'articles et de faits journalistiques à partir de la presse en ligne sénégalais, 2018. ,
, Recherche en Informatique et ses Applications (CNRIA-JC 2018), 2018.
Automatic Collection and Aggregation of Articles and Journalistic Factual Claims from Online Newspaper, 2018. ,
, Fifth International Conference on Social Networks Analysis, Management and Security (SNAMS), pp.336-341, 2018.
SnVera: A New Algorithm for Automation of Fact-Checking in Web Journalism Context, 2018 Fifth International Conference on Social Networks Analysis, Management and Security (SNAMS), pp.342-348, 2018. ,
,
Textrunner: open information extraction on the web, Proceedings of Human Language Technologies: The Annual Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations, pp.25-26, 2007. ,
MongoDB in action, 2011. ,
Foundations of JSON schema, Proceedings of the 25th International Conference on World Wide Web, pp.263-273, 2016. ,
From Relational Model to Rich Document Data Models-Best Practices Using MongoDB, 2017. ,
(chemin, source, media): chemin=chemin+'/'+media cheminTexte=chemin+'/Textes' cheminTexteJSON=chemin+'/ArticlesJSON' if not os.path.exists(chemin): os.mkdir(chemin) if not os.path.exists(cheminTexte): os.mkdir(cheminTexte) if not os, Proceedings of the SIGCHI conference on Human Factors in Computing Systems (pp, 1999. ,
, FactExtract (source, cheminTexte,cheminTexteJSON )
ArchivesJSON) if not os.path.exists(ArchivesCSV): os.mkdir(ArchivesCSV) if not os.path.exists(Rapport): os.mkdir(Rapport) import subprocess sourceSeneweb=, RAPPORTS' if not os.path.exists(chemin): os.mkdir(chemin) if not os.path.exists(ArchivesJSON): os.mkdir ,
, Rap) faw = open(Rapport+'/RapExtraction'+DateT+'.csv','w') faw.write(Rap) faw.close(, ANNEXE 3 : ARTICLE .JSON [ { "ID_ARTICLE":"ll>l>el>el>e, vol.#----------------------------------------------------------
c'est une aberration. Et, il faut en finir avec ca. >> " }, { "ID_ARTICLE":"ll>l>el>el>e ,
Nous sommes en train de vivre un ,