Efficient Content-based Retrieval in Parallel Databases of Images - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2009

Efficient Content-based Retrieval in Parallel Databases of Images

Résumé

In this thesis, we address the performance problem when searching in large databases of images. The processing of similarity queries is a computational challenge because of the dimensionality of the abstract representation for the images and size of the databases. We present two data organization methods that account for performance improvement. The first one is based on the clustering of the database in centralized settings. We derive an optimal range of values for the number of clusters to obtain from a database, which in conjunction with a searching algorithm allows to efficiently process nearest neighbor queries. However as the dimensionality and size of the database increase, a single computer is overwhelmed. The second method is based on data partitioning over a shared nothing machine. Based on the results of the first method, this method maximizes parallelism. We also derive the optimal number of processing nodes to maximize resource utilization. We performed extensive experiments with synthetic and real databases. They validate the proposals and show that the performance level is superior to existing approaches which beyond a certain dimensionality or database size become inefficient.
Cette thèse porte sur le traitement des requêtes par similarité sur les données de haute dimensionnalité, notamment multimédias, et, parmi elles, les images plus particulièrement. Ces requêtes, notamment celles des k plus proches voisins (kNN), posent des problèmes de calcul de par la nature des données elles-mêmes et de la taille de la base des données. Nous avons étudié leurs performances quand une méthode de partitionnement est appliquée sur la base de données pour obtenir et exploiter des classes. Nous avons proposé une taille et un nombre optimaux de ces classes pour que la requête puisse être traitée en temps optimal et avec une haute précision. Nous avons utilisé la recherche séquentielle comme base de référence. Ensuite nous avons proposé des méthodes de traitement de requêtes parallèles sur une grappe de machines. Pour cela, nous avons proposé des méthodes d'allocation des données pour la recherche efficace des kNN en parallèle. Nous proposons de même, un nombre réduit de noeuds sur la grappe de machines permettant néanmoins des temps de recherche sous-linéaires et optimaux vis-à-vis des classes déterminées précédemment. Nous avons utilisé des donnés synthétiques et réelles pour les validations pratiques. Dans les deux cas, nous avons pu constater des temps de réponse et une qualité des résultats supérieurs aux méthodes existantes, lesquelles, au-delà d'un faible nombre des dimensions, deviennent inefficaces.
Fichier principal
Vignette du fichier
ThesisJorgeM-03112009.pdf (2.6 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00465943 , version 1 (22-03-2010)

Identifiants

  • HAL Id : tel-00465943 , version 1

Citer

Jorge Roberto Manjarrez Sanchez. Efficient Content-based Retrieval in Parallel Databases of Images. Réseaux et télécommunications [cs.NI]. Université de Nantes, 2009. Français. ⟨NNT : ⟩. ⟨tel-00465943⟩
180 Consultations
305 Téléchargements

Partager

Gmail Facebook X LinkedIn More