. Londres, Mme ; Londres ; Royaume-Uni ; -; 1000, 2002.

. Lui, Clémence ; 0607080911 ; clui@gmail.com ; -; Mme ; Epinay \ seine ; France ; -; 02 mars 2014, p.120000022

. Lui, Clémence ; 0607080911 ; clui@gmail.com ; F ; -; Epinay sur seine ; France, p.120000022, 2014.

;. R. Saint, 0708091122 ; www.saint.fr ; M ; M. ; Epinay Villetaneuse ; Frence, p.3000

. Tunsi and . Rahma, Mme ; Epinay sur seine ; France ; -;1000, pp.31-42

. Riche and . Emir, Traifor ; Eve ; 0666622223 ; traifor@up13.fr ; F ; Mme ; Pékin ; Chine ; -;1000, pp.30-32, 1955.

. Lebon, Adem ; -; ada@obsolete.uk ; M ; Londre

A. Lebon, 0653545577 ; adam@yahoo.fr ; M ; Mr ; London ; United-Kingdom ; Europe ;1000 ; 31/03/2012 ; www.lebon.fr LeBon ; A. ; 0653545555 ; -; Male ; Mr ; London ; United-Kingdom, Europe, p.3103, 2000.

. Traifor, Eve ; 0666622223 ; traifor@up13.fr ; Female ; Mrs ; Beijing ; China ; Asia ; 1000, pp.29-0123987654, 2014.

. Lebon, Adel ; 0653545599 ; alebon@up13.fr ; M ;-; Paris ; France ; Europe, p.45

H. Paris, 0607080911 ; paris@live.com ; 0 ; Mrs ; LA ; USA ; America ;10000, pp.23-33

. Correia, 1. https ://fr.talend.com/products/data-integration 2. http ://www.pentaho.com/product/data-integration 3fr ; M ; Mr ; Londres ; Royaume-Uni ; -;1000, pp.3103-0123435433, 2007.
URL : https://hal.archives-ouvertes.fr/hal-00664253

. Londres, Mme ; Londres ; Royaume-Uni ; -; 1000, 2002.

. Lui, Clémence ; 0607080911 ; clui@gmail.com ; -; Mme ; Epinay \ seine ; France ; -; 02 mars 2014, p.120000022

. Adamsss and . Lebon, Lui ; Clémence ; 0607080911 ; clui@gmail.com ; F ; -; Epinay sur seine ; France, p.120000022, 2012.

;. R. Saint, Epinay Villetaneuse ; Frence ; -;3000 ;- Tunsi ; Rahma ; -;-; -; Mme ; Epinay sur seine ; France ; -;1000, www.saint.fr ; M ; M, pp.31-42, 708091122.

. Riche and . Emir, Traifor ; Eve ; 0666622223 ; traifor@up13.fr ; F ; Mme ; Pékin ; Chine ; -;1000, pp.30-32, 1955.

. Lebon, Adem ; -; ada@obsolete.uk ; M ; Londre

. Lebon, Adam ; 0653545577 ; adam@yahoo.fr ; M ; Mr ; London ; United-Kingdom ; -;1000, pp.3-0123435433, 2012.

A. Lebon, 0653545577 ; adam@yahoo.fr ; M ; Mr ; London ; United-Kingdom ; Europe ;1000 ; 31/03/2012 ; www.lebon.fr LeBon ; A. ; 0653545555 ; -; Male ; Mr ; London ; United-Kingdom, Europe, p.3103, 2000.

. Traifor, Eve ; 0666622223 ; traifor@up13.fr ; Female ; Mrs ; Beijing ; China ; Asia ; 1000, pp.29-0123987654, 2014.

. Lebon, Adel ; 0653545599 ; alebon@up13.fr ; M ;-; Paris ; France ; Europe, p.45

H. Paris, 0607080911 ; paris@live.com ; 0 ; Mrs ; LA ; USA ; America ;10000, pp.23-33

. Correia, Notons que la sixième colonne (Column6) ne doit contenir que des villes sous leurs noms anglais London " et " Beijing " sont syntaxiquement et sémantiquement valides. Alors que, " Pékin " et " Londres " sont syntaxiquement corrects et sémantiquement invalides en supposant que la langue (sous-catégorie) dominante est l'anglais, Londre " est syntaxiquement invalide, 2007.

. Le, SCHS représente une partie d'un concept existant dans le référentiel

M. Badri, F. Boufarès, S. Hamdoun, V. Heiwy, and K. Lellahi, Construction and Maintenance of Heteregeneous Data WareHouse, Chapitre de livre Data WareHousing Design and Advanced Engineering Applications : Methods for Complex Construction Editeur Adavnces in Data Warehousing and lining (ADWM) Book Series, Information Science, pp.189-204, 2009.

J. Barrasa, Ó. Corcho, and A. Gómez-pérez, R2O, an Extensible and Semantically Based Database to-ontology Mapping Language, 2nd Workshop on Semantic Web and Databases (SWDB), pp.1069-1070, 2004.

S. Bechhofer, Ontologies and Vocabularies, the 9th Summer School on Ontology Engineering and the Semantic Web (SSSW'12), pp.1-53, 2012.

J. Becker, M. Matzner, O. Müller, and A. Winkelmann, Towards a Semantic Data Quality Management -Using Ontologies to Assess Master Data Quality in Retailing, the Fourteenth Americas Conference on Information Systems (AM- CIS'08), pp.1-11, 2008.

I. Bedini, B. Nguyen, and G. Gardarin, Building Reference Ontologies from B2B XML Schema Files, In (PRiSM Laboratory Technical Report), pp.1-19, 2007.

I. Bedini, B. Nguyen, and G. Gardarin, B2B Automatic Taxonomy Construction, Tenth International Conference on Enterprise Information Systems, pp.12-16, 2008.

I. Bedini, B. Nguyen, and G. Gardarin, Janus : AutomaticOntologyBuilderfrom XSD Files, Proceedings of the 17th International Conference World Wide Web Conference (WWW'08), 2008.

A. Ben-salem, Semantics in Data quality, Poster in the 9th Summer School on Ontology Engineering and the Semantic Web (SSSW'12), 2012.

A. Ben-salem, Qualité des données & Grosses bases de données, Poster dans les Journées Big Data & Visualization (JBDMV'14), 2013.

A. Ben-salem, From Data quality to Data information In Poster dans l'École de Printemps sur l'Apprentissage arTificiel 2014 ( EPAT'14), 2014.

A. Ben-salem, F. Boufarès, and S. Correia, Semantic recognition of a data structrue in Big Data, 6th International Conference on Computational Intelligence and software Engineering (CISE2014), pp.93-102, 2014.

O. Benjalloun, H. Garcia-molina, D. Menestria, S. E. Whang, Q. Su et al., Swoosh: a generic approach to entity resolution, The 35 th International Journal on Very Large Data Bases (VLDB '09), pp.255-276, 2009.
DOI : 10.1007/s00778-008-0098-x

S. M. Benslimane, D. Benslimane, M. Malki, Y. Amghar, and F. Gargouri, Construction d'une ontologie à partir d'une base de données relationnelle : approche dirigée par l'analyse des formulaires HTML, INFORSID'06, pp.991-1010, 2006.

L. Berti-Équille, Qualité des données, Techniques de l'Ingénieur H3700, collection Technologies logicielles Architecture des systèmes, pp.1-19, 2006.

L. Berti-Équille, Quality Awereness for managing and mining Data, HDR, 2007.

L. Berti-Équille, Panorama des méthodes de détection et de traitement des anomalies, 5èmes Journées thématiques d'Apprentissage Artificiel & Fouille de Données (AAFD'12), pp.1-56, 2012.

M. Bilenko and R. J. Mooney, Adaptive duplicate detection using learnable string similarity measures, Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining , KDD '03, pp.39-48, 2003.
DOI : 10.1145/956750.956759

A. Bilke and F. Naumann, Schema Matching Using Duplicates, 21st International Conference on Data Engineering (ICDE'05), pp.69-80, 2005.
DOI : 10.1109/ICDE.2005.126

A. Bilke, J. Bleiholder, C. Bohm, K. Draba, F. Naumann et al., Automatic Data Fusion with HumMer, the 31th International Conference on Very Large Databases (VLDB'05)), pp.1251-1254, 2005.

C. Bizer, D2R MAP -A Database to RDF Mapping Language, Poster in 12th Conference in Wordl Wide Web (WWW03), 2003.

J. Bleiholder and F. Naumann, Conflict Handling Strategies in an Integrated Information System, pp.1-6, 2006.

F. Boufarès, Etude théorique des valeurs nulles et des domaines sémantiques dans les Bases de Données : Application sur les SGBD Pépin, Rapport DEA Informatique Fondamentale, pp.1-87, 1983.

F. Boufarès, Des Bases de Données aux Entrepôts de Données, Contribution au développement de nouveaux outils de gestion de la Qualité des Données, HDR en Informatique-Université Paris 13, 2012.

F. Boufarès and A. Ben-salem, Heterogeneous data-integration and data quality: Overview of conflicts, 2012 6th International Conference on Sciences of Electronics, Technologies of Information and Telecommunications (SETIT), pp.867-874, 2012.
DOI : 10.1109/SETIT.2012.6482029

F. Boufarès, A. Ben-salem, and S. Correia, Qualité de données dans les entrepôts de données : élimination des similaires, 8èmes Journées francophones sur les Entrepôts de Données et l'Analyse en ligne (EDA'12), RNTI-B 2012, pp.32-41, 2012.

F. Boufarès, A. Ben-salem, and S. Correia, Un algorithme de déduplication pour les bases et entrepôts de données, Congrès INFormatique des ORganisations et Systèmes d ?Information et de Décision (INFORSID'12), pp.497-506, 2012.

F. Boufarès, A. Ben-salem, M. Rehab, and S. Correia, Similar data elimination: MFB algorithm, 2013 International Conference on Control, Decision and Information Technologies (CoDIT), pp.289-293, 2013.
DOI : 10.1109/CoDIT.2013.6689559

I. Boydens, Evaluer et améliorer les qualités des bases de données, Techno 7, Publication technique de la Smals-MvM, 1998.

S. Castano, V. De-antonellis, S. De-capitani, and D. Vimercati, Global viewing of heterogeneous data sources, Journal of Knowledge and Data Engineering, pp.13-277, 2001.
DOI : 10.1109/69.917566

F. Cerbah, Learning Highly Structured Semantic Repositories from Relational Databases -RDBtoOnto Tool, the 5th European Semantic Web Conference, pp.777-781, 2008.

P. Christen, Febrl -A Freely Available Record Linkage System with a Graphical User Interface, In Australasian Workshop on Health Data and Knowledge Management, vol.80, pp.17-25, 2008.

E. F. Codd, A Relational Model of Data for Large Shared Data Banks, Vomule, vol.13, issue.6, pp.377-387, 1970.

W. W. Cohen, Integration of Heterogeneous Databases without Common Domains Using Queries Based on Textual Similarity, ACM SIGMOD International Conference in Management of Data (SIGMOD'98), pp.201-212, 1998.

W. W. Cohen and J. Richman, Iterative Record Linkage for Cleaning and Integration, 9th ACM SIGMOD workshop on Research issues in data mining and knowledge discovery, pp.11-18, 2004.

A. Cornuéjols, Introdution à l'Apprentissage Artificiel In Ecole de Printemps sur l'Apprentissage arTificiel (EPAT'14), 2014.

M. Dallachiesa, A. Ebaid, A. Eldawy, A. Elmagarmid, I. F. Ilyas et al., NADEEF, Proceedings of the 2013 international conference on Management of data, SIGMOD '13, pp.541-552, 2013.
DOI : 10.1145/2463676.2465327

J. Dean and S. Ghemawat, MapReduce, The 6th Conference On Symposium On Operating Systems Design And Implementation (OSDI'04), pp.137-150, 2004.
DOI : 10.1145/1327452.1327492

D. Dey, S. Sarkar, and P. De, Entity matching in heterogeneous databases: a distance-based decision model, Proceedings of the Thirty-First Hawaii International Conference on System Sciences, pp.305-313, 1998.
DOI : 10.1109/HICSS.1998.649225

H. H. Do and E. Rahm, COMA ??? A system for flexible combination of schema matching approaches, the 28th International Conference on Very Large Data Bases, pp.610-621, 2002.
DOI : 10.1016/B978-155860869-6/50060-3

A. Doan, P. Domingos, and A. Halevy, Reconciling schemas of disparate data sources : a machine-learning approach, Proceedings of the 2001 ACM SIGMOD international conference on Management of data (SIGMOD'01), pp.509-520, 2001.

X. L. Dong, L. Berti-equille, and D. Srivastava, Integrating conflicting data, the 35th International Conference on Very Large Databases (VLDB'09), pp.550-561, 2009.
DOI : 10.14778/1687627.1687690

M. G. Elfeky, A. K. Elmagarmid, and V. S. Verykios, TAILOR : A Record Linkage Tool Box, 18th IEEE International Conference Data Eng. (ICDE'02), pp.17-28, 2002.

A. K. Elmagarmid, P. G. Ipeirotis, and V. S. Verykios, Duplicate Record Detection: A Survey, IEEE Transactions on Knowledge and Data Engineering, vol.19, issue.1, pp.1-16, 2007.
DOI : 10.1109/TKDE.2007.250581

J. Euzenat, Ontology matching, the 9th Summer School on Ontology Engineering and the Semantic Web (SSSW'12), pp.1-9, 2012.
DOI : 10.1007/978-3-642-38721-0

URL : https://hal.archives-ouvertes.fr/hal-00922291

J. Euzenat and P. Valtchev, An integrative proximity measure for ontology alignment, IEEE Transactions on Knowledge and Data Engineering, issue.1, pp.25-26, 2006.
URL : https://hal.archives-ouvertes.fr/hal-00922318

C. Faucher, F. Bertrand, and J. Lafaye, Génération d'ontologie à partir d'un modèle métier UML annoté, Revue des Nouvelles Technologies de l'Information RNTI-B, pp.65-84, 2008.

D. Forest and J. G. Meunier, Classification et catégorisation automatiques : application à l'analyse thématique des données textuelles, 7ème Journées internationales d'Analyse statistique des Données Textuelles, pp.433-444, 2004.

H. Galhardas, D. Florescu, D. Shasha, and E. Simon, An Extensible Framework for Data Cleaning, International conference on Data Engineering (ICDE, pp.1-32, 2000.
URL : https://hal.archives-ouvertes.fr/inria-00072922

R. Ghawi, N. Cullot, and K. Yétongnon, DB2OWL : A Tool for Automatic Databaseto-Ontology Mapping, Symposium on Advanced Database Systems, Conference on Advanced Database Systems (ADS), pp.491-494, 2007.

F. Giunchiglia, P. Shvaiko, and M. Yatskevich, Semantic Schema Matching, Proceedings 13rd International Conference on Cooperative Information Systems (CoopIS'05), pp.347-365, 2005.
DOI : 10.1007/11575771_23

B. Glenn and A. Sethi, Matching records in a national medical patient index, Communications of the ACM, pp.83-88, 2001.

S. Gong, A collaborative filtering recommendation algorithm based on item classification, In (Journal of software, vol.5, issue.7, pp.745-752, 2010.

S. Guha, N. Koudas, A. Marathe, and D. Srivastava, Merging the Results of Approximate Match Operations, 30th International Conference in Very Large Databases, pp.636-647, 2004.
DOI : 10.1016/B978-012088469-8.50057-7

S. Hamdoun and F. Boufarès, Un formalisme pour l'intégration de données hétérogènes, Revue des Nouvelles Technologies de l'InformationRNTI), B-6, Entrepôts de Données et l'Analyse en ligne (EDA'10), pp.107-119, 2010.

M. Hammou, A. Ben-salem, and F. Boufarès, Gestion de la qualité des données : Aide à la compréhension du schéma de données ; élimination des similaires, Mémoire de stage de Master2 Informatique, option Exploration Informatique de données et décisionnel, pp.1-50, 2013.

I. Herman, Semantic Web Activities@W3C, 9th Summer School on Ontology Engineering and the Semantic Web (SSSW'12), pp.1-89, 2012.

M. Hernandez and S. Stolfo, Utility-based resolution of data inconsistencies, International Workshop on Information Quality in Information Systems (IQIS), pp.35-43, 2004.

M. A. Hernandez and S. J. Stolfo, The merge/purge problem for large databases, the ACM International Conference on Management of Data (SIGMOD'95), pp.127-138, 1995.

M. A. Hernandez and S. J. Stolfo, Real-world Data is Dirty : Data Cleansing and The MergePurge Problem, Data Mining and Knowledge Discovery (DMKD'98), pp.9-37, 1998.

T. Johnson and T. Dasu, A Data Quality Browser, Proceedings of the Sixth International Conference on Information Quality, pp.233-243, 2001.

D. V. Kalashnikov and S. Mehrotra, Domain-independent data cleaning via analysis of entity-relationship graph, TODS) TODS Homepage archive, pp.716-767, 2006.
DOI : 10.1145/1138394.1138401

M. Kamel and N. Aussenac-gilles, Construction automatique d'ontologies à partir de spécification de bases de données, Actes des 20èmes Journées Francophones d'Ingénierie des Connaissances (IC), pp.85-96, 2009.

S. and H. Khalfallah, Construction d'entrepôts de données par intégration de sources hétérogènes, Thèse de doctorat en Informatique-Université Paris 13, pp.1-189, 2006.

E. M. Knox and R. T. Ng, Algorithms for Mining Distance-Based Outliers in Large Datasets, Proceedings of the 24th International Conference in Very Large Databases (VLDB'98), pp.392-403, 1998.

N. Koudas, S. Sarawagi, and D. Srivastava, Record linkage, Proceedings of the 2006 ACM SIGMOD international conference on Management of data , SIGMOD '06, pp.802-803, 2006.
DOI : 10.1145/1142473.1142599

H. Köpcke and E. Rahm, Frameworks for entity matching: A comparison, Data Knowledge Engineering (DKE'09), pp.197-210, 2009.
DOI : 10.1016/j.datak.2009.10.003

S. Krivine, J. Nobécourt, L. Soualmia, F. Cerbah, and C. Duclos, Construction automatique d'ontologie à partir de bases de données relationnelles : application au médicament dans le domaine de la pharmacovigilance, Actes des journées francophones d'Ingénierie de Connaissances (IC'09), pp.73-84, 2009.

J. A. Larson, S. B. Navathe, and R. Elmasri, A theory of attributed equivalence in databases with application to schema integration, Software Engineering, pp.449-463, 1989.
DOI : 10.1109/32.16605

V. I. Levenshtein, Binary Codes Capable of Correcting Deletions, Insertions and Reversals, Doklady Akademii Nauk SSSR, pp.845-848, 1966.

W. Li and C. Clifton, SEMINT: A tool for identifying attribute correspondences in heterogeneous databases using neural networks, Data & Knowledge Engineering, vol.33, issue.1, pp.49-84, 2000.
DOI : 10.1016/S0169-023X(99)00044-0

P. Liegl, M. Zapleta, C. Pichler, and M. Strommer, State-of-the-art in business document standards, 2010 8th IEEE International Conference on Industrial Informatics, pp.234-241, 2010.
DOI : 10.1109/INDIN.2010.5549423

E. P. Lim, J. Srivastava, S. Prabhakar, and J. Richardson, Entity Identification in Database Integration, Ninth IEEE International Conference in Data Engineering (ICDE), pp.294-301, 1993.

J. Madhavan, P. A. Bernstein, and E. Rahm, Generic Schema Matching with Cupid, Proceedings of the 27th International Conference on Very Large Data Bases (VLDB '01), pp.49-58, 2001.

S. Madnick and H. Zhu, Improving data quality through effective use of data semantics, Working paper CISL#2005-08, pp.1-19, 2005.

B. Meddah, A. Ben-salem, and F. Boufarès, Qualité de données, Mémoire de stage de Master2 Informatique, option Exploration Informatique de données et décisionnel, pp.1-42, 2014.

W. Mefteh, A. Bouju, and J. Malki, Cadre applicatif pour la construction d'ontologie basée sur un modèle conceptuel UML2 et la réutilisation des ontologies, Atelier construction d'ontologies GBPOnto, pp.1-12, 2009.

D. Menard, Schémas de bases de données, 2008.

N. F. Noy and D. L. Mcguinness, Ontology Development 101 : A Guide to Creating Your First Ontology, pp.1-25, 2001.

C. Nyulas, M. O. Connor, and S. Tu, DataMaster -a Plug-in for Importing Schemas and Data from Relational Databases into Protégé, 10 th International Protégé Conference, pp.1-3, 2007.

P. Oliveira, F. Rodrigues, P. Henriques, and H. Galhardas, A Taxonomy of Data Quality Problems, inproceedings universitaire, pp.1-15, 2005.

V. Peralta, Data quality evaluation in data integration systems, 2006.
URL : https://hal.archives-ouvertes.fr/tel-00325139

L. Philips, The Double Metaphone Search Algorithm, In C/C++ Users J, vol.18, issue.5, pp.38-43, 2000.

R. Chaudhuri, V. Ananthakrishna, and . Ganti, Eliminating fuzzy duplicates in data warehouses, the 28th international conference on Very Large Data Bases (VLDB'02), pp.586-597, 2002.

E. Rahm and P. A. Bernstein, A survey of approaches to automatic schema matching, VLDB Journal : Very Large Data Bases, pp.334-350, 2001.
DOI : 10.1007/s007780100057

M. Rehab-adjout and F. Boufarès, A Massively Parallel Processing for the Multiple Linear Regression, The 10th International Conference on Signal Image Technology & Internet Based Systems, 2014.

F. Sais, Intégration sémantique de données guide par une ontologie, 2007.

S. Sarawagi and A. Bhamidipaty, Interactive deduplication using active learning, Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining , KDD '02, pp.269-278, 2002.
DOI : 10.1145/775047.775087

F. Saïs and R. Thomopoulos, Ontology-aware prediction from rules: A reconciliation-based approach, Knowledge-Based Systems, vol.67, pp.117-130, 2014.
DOI : 10.1016/j.knosys.2014.05.023

P. Shvaiko and J. Euzenat, Ontology Matching: State of the Art and Future Challenges, IEEE Transactions on Knowledge and Data Engineering, vol.25, issue.1, pp.25-158, 2013.
DOI : 10.1109/TKDE.2011.253

URL : https://hal.archives-ouvertes.fr/hal-00917910

E. Simonenko and N. Novelli, Extration de dépendances fonctionelles approximatives : une approche incrémentale, Extractions et Gestions des Connaissances, RNTT E.23 (EGC'12), pp.95-100, 2012.

A. Souid, A. Ben-salem, and F. Boufarès, Qualité des données : Aide à la compréhension des schémas ; Profilage des données ; Dépendances fonctionnelles, Mémoire de stage de Master2 Informatique, option Programmation et Logiciel Sûrs, pp.1-50, 2013.

G. Stoilos, G. Stamou, and S. Kollias, A String Metric for Ontology Alignment, 4th International Semantic Web Conference (ISWC'05), pp.624-637, 2005.
DOI : 10.1007/11574620_45

M. Stricker, Réseaux de neurones pour le traitement automatique du langage : conception et réalisation de filtres d'informations, Thèse de Doctorat de l, 2000.

C. Toulemonde, JEMM research_Informatica : Le capital de votre organisation, Un livre blanc de JEMM research -Des données de qualité, 2008.

E. Ukkonen, Approximate string-matching with q-grams and maximal matches, Theoretical Computer Science, pp.191-211, 1992.
DOI : 10.1016/0304-3975(92)90143-4

R. Wang and D. Strong, Beyong accuracy : what data quality means to data consumers, Journal of management information systems, pp.5-34, 1996.

Y. R. Wang and S. E. Madnick, The inter-database instance identification problem in integrating autonomous systems, [1989] Proceedings. Fifth International Conference on Data Engineering, pp.46-55, 1989.
DOI : 10.1109/ICDE.1989.47199

W. E. Winkler, Overview of Record Linkage and Current Research Directions, Research Report Series, RRS, pp.1-44, 2006.

W. E. Winkler and Y. Thibaudeau, An Application of the FellegiSunter Model of Record Linkage to the 1990 US Decennial Census, US Bureau of the Census, pp.1-22, 1991.

J. Hamilton, X. Wang, and Y. Bither, An ontology-based approach to data cleaning, Technical Report CS-2005-05, pp.1-10, 2005.

M. Zayen, F. Boufarès, A. Ben-salem, and M. Rehab-adjout, La technologie MapReduce (Hadoop/Spark) au service de la qualité des données : Élimination des doubles et des similaires dans les grosses masses de données, Mémoire de stage de Master2 Informatique, option Système d'Information et Décision, pp.45-52, 2014.

D. Zhang, Basic MapReduce Algorithm Design