Efficient Content-based Retrieval in Parallel Databases of Images

Jorge Roberto Manjarrez Sanchez

Thèse Année : 2009

Efficient Content-based Retrieval in Parallel Databases of Images

(1)

Jorge Roberto Manjarrez Sanchez

Fonction : Auteur

Laboratoire d'Informatique de Nantes Atlantique

Résumé

In this thesis, we address the performance problem when searching in large databases of images. The processing of similarity queries is a computational challenge because of the dimensionality of the abstract representation for the images and size of the databases. We present two data organization methods that account for performance improvement. The first one is based on the clustering of the database in centralized settings. We derive an optimal range of values for the number of clusters to obtain from a database, which in conjunction with a searching algorithm allows to efficiently process nearest neighbor queries. However as the dimensionality and size of the database increase, a single computer is overwhelmed. The second method is based on data partitioning over a shared nothing machine. Based on the results of the first method, this method maximizes parallelism. We also derive the optimal number of processing nodes to maximize resource utilization. We performed extensive experiments with synthetic and real databases. They validate the proposals and show that the performance level is superior to existing approaches which beyond a certain dimensionality or database size become inefficient.

Cette thèse porte sur le traitement des requêtes par similarité sur les données de haute dimensionnalité, notamment multimédias, et, parmi elles, les images plus particulièrement. Ces requêtes, notamment celles des k plus proches voisins (kNN), posent des problèmes de calcul de par la nature des données elles-mêmes et de la taille de la base des données. Nous avons étudié leurs performances quand une méthode de partitionnement est appliquée sur la base de données pour obtenir et exploiter des classes. Nous avons proposé une taille et un nombre optimaux de ces classes pour que la requête puisse être traitée en temps optimal et avec une haute précision. Nous avons utilisé la recherche séquentielle comme base de référence. Ensuite nous avons proposé des méthodes de traitement de requêtes parallèles sur une grappe de machines. Pour cela, nous avons proposé des méthodes d'allocation des données pour la recherche efficace des kNN en parallèle. Nous proposons de même, un nombre réduit de noeuds sur la grappe de machines permettant néanmoins des temps de recherche sous-linéaires et optimaux vis-à-vis des classes déterminées précédemment. Nous avons utilisé des donnés synthétiques et réelles pour les validations pratiques. Dans les deux cas, nous avons pu constater des temps de réponse et une qualité des résultats supérieurs aux méthodes existantes, lesquelles, au-delà d'un faible nombre des dimensions, deviennent inefficaces.

Mots clés

Gestion de données multimédias données multidimensionnelles bases de données classification parallélisme dans des grappes de machines partitionnement de données

Multimedia data management Multidimensional data Databases Data clustering Cluster and parallel computing Data partitioning

Domaines

Réseaux et télécommunications [cs.NI] Interface homme-machine [cs.HC]

Fichier principal

ThesisJorgeM-03112009.pdf (2.6 Mo)

José Martinez : Connectez-vous pour contacter le contributeur

https://theses.hal.science/tel-00465943

Soumis le : lundi 22 mars 2010-12:18:17

Dernière modification le : vendredi 5 janvier 2024-03:23:40

Archivage à long terme le : mercredi 30 novembre 2016-16:15:51

Dates et versions

tel-00465943 , version 1 (22-03-2010)

Identifiants

HAL Id : tel-00465943 , version 1

Citer

Jorge Roberto Manjarrez Sanchez. Efficient Content-based Retrieval in Parallel Databases of Images. Réseaux et télécommunications [cs.NI]. Université de Nantes, 2009. Français. ⟨NNT : ⟩. ⟨tel-00465943⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-NANTES CNRS LINA LINA-GRIM LINA-GDD LINA-DUKE LS2N NANTES-UNIVERSITE

180 Consultations

305 Téléchargements

Efficient Content-based Retrieval in Parallel Databases of Images

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager