Distributed clustering algorithms over a cloud computing platform

Résumé : Les thèmes de recherche abordés dans ce manuscrit ont trait à la parallélisation d’algorithmes de classification non-supervisée (clustering) sur des plateformes de Cloud Computing. Le chapitre 2 propose un tour d’horizon de ces technologies. Nous y présentons d’une manière générale le Cloud Computing comme plateforme de calcul. Le chapitre 3 présente l’offre cloud de Microsoft : Windows Azure. Le chapitre suivant analyse certains enjeux techniques de la conception d’applications cloud et propose certains éléments d’architecture logicielle pour de telles applications. Le chapitre 5 propose une analyse du premier algorithme de classification étudié : le Batch K-Means. En particulier, nous approfondissons comment les versions réparties de cet algorithme doivent être adaptées à une architecture cloud. Nous y montrons l’impact des coûts de communication sur l’efficacité de cet algorithme lorsque celui-ci est implémenté sur une plateforme cloud. Les chapitres 6 et 7 présentent un travail de parallélisation d’un autre algorithme de classification : l’algorithme de Vector Quantization (VQ). Dans le chapitre 6 nous explorons quels schémas de parallélisation sont susceptibles de fournir des résultats satisfaisants en terme d’accélération de la convergence. Le chapitre 7 présente une implémentation de ces schémas de parallélisation. Les détails pratiques de l’implémentation soulignent un résultat de première importance : c’est le caractère en ligne du VQ qui permet de proposer une implémentation asynchrone de l’algorithme réparti, supprimant ainsi une partie des problèmes de communication rencontrés lors de la parallélisation du Batch K-Means.
Type de document :
Thèse
Other [cs.OH]. Télécom ParisTech, 2012. English. 〈NNT : 2012ENST0055〉
Liste complète des métadonnées

https://pastel.archives-ouvertes.fr/tel-00744768
Contributeur : Abes Star <>
Soumis le : mercredi 4 juin 2014 - 17:53:19
Dernière modification le : jeudi 11 janvier 2018 - 06:23:39
Document(s) archivé(s) le : jeudi 4 septembre 2014 - 13:10:48

Fichier

These_Durut_-_V1.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-00744768, version 2

Citation

Matthieu Durut. Distributed clustering algorithms over a cloud computing platform. Other [cs.OH]. Télécom ParisTech, 2012. English. 〈NNT : 2012ENST0055〉. 〈tel-00744768v2〉

Partager

Métriques

Consultations de la notice

1113

Téléchargements de fichiers

1399