Skip to Main content Skip to Navigation
Theses

Partitionnement dans les systèmes de gestion de données parallèles

Miguel Liroz-Gistau 1
1 ZENITH - Scientific Data Management
LIRMM - Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier, CRISAM - Inria Sophia Antipolis - Méditerranée
Résumé : Au cours des dernières années, le volume des données qui sont capturées et générées a explosé. Les progrès des technologies informatiques, qui fournissent du stockage à bas prix et une très forte puissance de calcul, ont permis aux organisations d'exécuter des analyses complexes de leurs données et d'en extraire des connaissances précieuses. Cette tendance a été très importante non seulement pour l'industrie, mais a également pour la science, où les meilleures instruments et les simulations les plus complexes ont besoin d'une gestion efficace des quantités énormes de données.Le parallélisme est une technique fondamentale dans la gestion de données extrêmement volumineuses car il tire parti de l'utilisation simultanée de plusieurs ressources informatiques. Pour profiter du calcul parallèle, nous avons besoin de techniques de partitionnement de données efficaces, qui sont en charge de la division de l'ensemble des données en plusieurs partitions et leur attribution aux nœuds de calculs. Le partitionnement de données est un problème complexe, car il doit prendre en compte des questions différentes et souvent contradictoires telles que la localité des données, la répartition de charge et la maximisation du parallélisme.Dans cette thèse, nous étudions le problème de partitionnement de données, en particulier dans les bases de données parallèles scientifiques qui sont continuellement en croissance. Nous étudions également ces partitionnements dans le cadre MapReduce.Dans le premier cas, nous considérons le partitionnement de très grandes bases de données dans lesquelles des nouveaux éléments sont ajoutés en permanence, avec pour exemple une application aux données astronomiques. Les approches existantes sont limitées à cause de la complexité de la charge de travail et l'ajout en continu de nouvelles données limitent l'utilisation d'approches traditionnelles. Nous proposons deux algorithmes de partitionnement dynamique qui attribuent les nouvelles données aux partitions en utilisant une technique basée sur l'affinité. Nos algorithmes permettent d'obtenir de très bons partitionnements des données en un temps d'exécution réduit comparé aux approches traditionnelles.Nous étudions également comment améliorer la performance du framework MapReduce en utilisant des techniques de partitionnement de données. En particulier, nous sommes intéressés par le partitionnement efficient de données d'entrée
Document type :
Theses
Complete list of metadatas

Cited literature [80 references]  Display  Hide  Download

https://tel.archives-ouvertes.fr/tel-01023039
Contributor : Abes Star :  Contact
Submitted on : Friday, July 11, 2014 - 2:07:09 PM
Last modification on : Monday, May 4, 2020 - 11:38:29 AM
Document(s) archivé(s) le : Saturday, October 11, 2014 - 12:35:10 PM

File

36639_LIROZ_2013_archivage_cor...
Version validated by the jury (STAR)

Identifiers

  • HAL Id : tel-01023039, version 1

Citation

Miguel Liroz-Gistau. Partitionnement dans les systèmes de gestion de données parallèles. Base de données [cs.DB]. Université Montpellier II - Sciences et Techniques du Languedoc, 2013. Français. ⟨NNT : 2013MON20117⟩. ⟨tel-01023039⟩

Share

Metrics

Record views

563

Files downloads

530