Skip to Main content Skip to Navigation
Theses

Contributions to unsupervised learning from massive high-dimensional data streams : structuring, hashing and clustering

Résumé : Cette thèse étudie deux tâches fondamentales d'apprentissage non supervisé: la recherche des plus proches voisins et le clustering de données massives en grande dimension pour respecter d'importantes contraintes de temps et d'espace.Tout d'abord, un nouveau cadre théorique permet de réduire le coût spatial et d'augmenter le débit de traitement du Cross-polytope LSH pour la recherche du plus proche voisin presque sans aucune perte de précision.Ensuite, une méthode est conçue pour apprendre en une seule passe sur des données en grande dimension des codes compacts binaires. En plus de garanties théoriques, la qualité des sketches obtenus est mesurée dans le cadre de la recherche approximative des plus proches voisins. Puis, un algorithme de clustering sans paramètre et efficace en terme de coût de stockage est développé en s'appuyant sur l'extraction d'un arbre couvrant minimum approché du graphe de dissimilarité compressé auquel des coupes bien choisies sont effectuées.
Document type :
Theses
Complete list of metadatas

Cited literature [199 references]  Display  Hide  Download

https://tel.archives-ouvertes.fr/tel-01982476
Contributor : Abes Star :  Contact
Submitted on : Tuesday, January 15, 2019 - 4:40:12 PM
Last modification on : Wednesday, March 4, 2020 - 11:01:45 AM

File

TheseFinale-MORVAN.pdf
Version validated by the jury (STAR)

Identifiers

  • HAL Id : tel-01982476, version 1

Citation

Anne Morvan. Contributions to unsupervised learning from massive high-dimensional data streams : structuring, hashing and clustering. Machine Learning [cs.LG]. PSL Research University, 2018. English. ⟨NNT : 2018PSLED033⟩. ⟨tel-01982476⟩

Share

Metrics

Record views

738

Files downloads

354