Contributions to music semantic analysis and its acceleration techniques

Résumé : La production et la diffusion de musique numérisée ont explosé ces dernières années. Une telle quantité de données à traiter nécessite des méthodes efficaces et rapides pour l’analyse et la recherche automatique de musique. Cette thèse s’attache donc à proposer des contributions pour l’analyse sémantique de la musique, et en particulier pour la reconnaissance du genre musical et de l’émotion induite (ressentie par l’auditoire), à l’aide de descripteurs de bas-niveau sémantique mais également de niveau intermédiaire. En effet, le genre musical et l’émotion comptent parmi les concepts sémantiques les plus naturels perçus par les auditoires. Afin d’accéder aux propriétés sémantiques à partir des descripteurs bas-niveau, des modélisations basées sur des algorithmes de types K-means et GMM utilisant des BoW et Gaussian super vectors ont été envisagées pour générer des dictionnaires. Compte-tenu de la très importante quantité de données à traiter, l’efficacité temporelle ainsi que la précision de la reconnaissance sont des points critiques pour la modélisation des descripteurs de bas-niveau. Ainsi, notre première contribution concerne l’accélération des méthodes K-means, GMM et UMB-MAP, non seulement sur des machines indépendantes, mais également sur des clusters de machines. Afin d’atteindre une vitesse d’exécution la plus importante possible sur une machine unique, nous avons montré que les procédures d’apprentissage des dictionnaires peuvent être réécrites sous forme matricielle pouvant être accélérée efficacement grâce à des infrastructures de calcul parallèle hautement performantes telle que les multi-core CPU ou GPU. En particulier, en s’appuyant sur GPU et un paramétrage adapté, nous avons obtenu une accélération de facteur deux par rapport à une implémentation single thread. Concernant le problème lié au fait que les données ne peuvent pas être stockées dans la mémoire d’une seul ordinateur, nous avons montré que les procédures d’apprentissage des K-means et GMM pouvaient être divisées par un schéma Map-Reduce pouvant être exécuté sur des clusters Hadoop et Spark. En utilisant notre format matriciel sur ce type de clusters, une accélération de 5 à 10 fois a pu être obtenue par rapport aux librairies d’accélération de l’état de l’art. En complément des descripteurs audio bas-niveau, des descripteurs de niveau sémantique intermédiaire tels que l’harmonie de la musique sont également très importants puisqu’ils intègrent des informations d’un niveau d’abstraction supérieur à celles obtenues à partir de la simple forme d’onde. Ainsi, notre seconde contribution consiste en la modélisation de l’information liée aux notes détectées au sein du signal musical, en utilisant des connaissances sur les propriétés de la musique. Cette contribution s’appuie sur deux niveaux de connaissance musicale : le son des notes des instruments ainsi que les statistiques de co-occurrence et de transitions entre notes. Pour le premier niveau, un dictionnaire musical constitué de notes d’instruments a été élaboré à partir du synthétiseur Midi de Logic Pro 9. Basé sur ce dictionnaire, nous avons proposé un algorithme « Positive Constraint Matching Pursuit » (PCMP) pour réaliser la décomposition de la musique. Pour le second niveau, nous avons proposé une décomposition parcimonieuse intégrant les informations de statistiques d’occurrence des notes ainsi que les probabilités de co-occurrence pour guider la sélection des atomes du dictionnaire musical et pour construire un graphe à candidats multiples pour proposer des choix alternatifs lors des sélections successives. Pour la recherche du chemin global optimal de succession des notes, les probabilités de transitions entre notes ont également été incorporées. […]
Type de document :
Thèse
Other. Ecole Centrale de Lyon, 2014. English. 〈NNT : 2014ECDL0044〉
Liste complète des métadonnées

Littérature citée [14 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-01170652
Contributeur : Abes Star <>
Soumis le : jeudi 2 juillet 2015 - 09:31:06
Dernière modification le : vendredi 10 novembre 2017 - 01:21:13
Document(s) archivé(s) le : mardi 25 avril 2017 - 22:33:30

Fichier

TH_T2441_bgao.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01170652, version 1

Collections

Citation

Boyang Gao. Contributions to music semantic analysis and its acceleration techniques. Other. Ecole Centrale de Lyon, 2014. English. 〈NNT : 2014ECDL0044〉. 〈tel-01170652〉

Partager

Métriques

Consultations de la notice

180

Téléchargements de fichiers

191