Joint Estimation of Musical Content Information From an Audio Signal

Hélène Papadopoulos

Résumé

This thesis is concerned with the problem of automatically extracting meaningful content information from music audio signals. Most of the previous works that address the problem of estimating musical attributes from the audio signal have dealt with these elements independently. However, musical elements are deeply related to each other and should be analyzed considering the global musical context, as a musician does when he or she analyzes a piece of music. Our research concentrates on three musical descriptors related to the harmonic, the metrical and the tonal structure. More specifically, we focus on three musical attributes: the chord progression, the downbeats and the musical key. The scope of this work is to develop a model that allows the joint estimation of the chords, the keys and the downbeats from polyphonic music recordings. We intend to show that integrating knowledge of mutual dependencies between several descriptors of musical content improves their estimation. In our model, harmony is a core around which other musical attributes are organized. We start by investigating several typical representations of the audio signal in order to select the most appropriate one for the task of harmonic content analysis. We explore several schemes for chromagram computation and investigate several issues related to the use of each representation. We detail and explain the choice of the audio signal representation we use as an input to our model. We then concentrates on the problem of the automatic estimation of the chord progression, using chroma features as observation of the music signal. From the audio signal, a set of chroma vectors representing the pitch content of the file over time is extracted. The chord progression is then estimated from these observations using a hidden Markov model. Several methods are proposed that allow taking into account music theory, perception of key and presence of higher harmonics of pitch notes. They are evaluated and compared to existing algorithms through a large-scale evaluation on popular music songs. We then present a new technique for estimating simultaneously the chord progression and the downbeats from an audio file. A specific topology of hidden Markov models that enables modeling chord dependency on the metrical structure is proposed. This model allows us to consider pieces with complex metrical structures such as beat insertion, beat deletion or changes in the meter. The model is evaluated on a large set of popular music songs that present various metrical structures. We compare a semi-automatic model, in which the beat positions are annotated, with a fully automatic model in which a beat tracker is used as a front-end of the system. Finally, we focus on the problem of key estimation. In a first part, we concentrate on the problem of estimating the main key of a piece. Relying on previous works on key estimation, we extend the above-mentioned model to a model for simultaneous downbeat, chord and key estimation from an audio signal. The model is evaluated on a set of popular music pieces. We then draw our attention to local key finding. We propose to address this problem by investigating the possible combination and extension of different previous proposed global key estimation approaches. The specificity of our approach is that we introduce key dependency on both the harmonic and the metrical structures. We evaluate and analyze the results of our model on a new annotated database composed of classical music pieces.

Depuis quelques années, nous assistons à l'augmentation croissante de gigantesques collections de musique en ligne. Ce phénomène a attiré l'attention de nombreux chercheurs. En effet, le besoin urgent de développer des outils et des méthodes qui permettent d'interagir avec ces énormes bibliothèques de musique numérique pose des défis scientifiques complexes. Le domaine de la recherche d'information musicale (Music Information Retrieval, MIR) est ainsi devenu très actif depuis une dizaine d'années. Ce domaine général inclut celui de l'indexation musicale dans lequel s'inscrit cette thèse qui a pour but d'aider au stockage, à la diffusion et la consultation des gigantesques collections de musique en ligne. Ce domaine ouvre de nombreuses perspectives pour l'industrie et la recherche liées aux activités multimédia. Dans cette thèse, nous nous intéressons au problème de l'extraction automatique d'informations de contenu d'un signal audio de musique. La plupart des travaux existants abordent ce problème en considérant les attributs musicaux de manière indépendante les uns vis-à-vis des autres. Cependant les morceaux de musique sont extrèmement structurés du point de vue de l'harmonie et du rythme et leur estimation devrait se faire en tenant compte du contexte musical, comme le fait un musicien lorsqu'il analyse un morceau de musique. Nous nous concentrons sur trois descripteurs musicaux liés aux structures harmoniques, métriques et tonales d'un morceau de musique. Plus précisément, nous cherchons à en estimer la progression des accords, les premiers temps et la tonalité. L'originalité de notre travail consiste à construire un modèle qui permet d'estimer de manière conjointe ces trois attributs musicaux. Notre objectif est de montrer que l'estimation des divers descripteurs musicaux est meilleure si on tient compte de leurs dépendances mutuelles que si on les estime de manière indépendante. Nous proposons au cours de ce travail un ensemble de protocoles de comparaison, de métriques de performances et de nouvelles bases de données de test afin de pouvoir évaluer les différentes méthodes étudiées. Afin de valider notre approche, nous présentons également les résultats de nos participations à des campagnes d'évaluation internationales. Dans un premier temps, nous examinons plusieurs représentations typiques du signal audio afin de choisir celle qui est la plus appropriée à l'analyse du contenu harmonique d'un morceau de musique. Nous explorons plusieurs méthodes qui permettent d'extraire un chromagram du signal et les comparons à travers un protocole d'évaluation original et une nouvelle base de données que nous avons annotée. Nous détaillons et expliquons les raisons qui nous ont amenés à choisir la représentation que nous utilisons dans notre modèle. Dans notre modèle, les accords sont considérés comme un attribut central autour duquel les autres descripteurs musicaux s'organisent. Nous étudions le problème de l'estimation automatique de la suite des accords d'un morceau de musique audio en utilisant les _chromas_ comme observations du signal. Nous proposons plusieurs méthodes basées sur les modèles de Markov cachés (hidden Markov models, HMM), qui permettent de prendre en compte des éléments de la théorie musicale, le résultat d'expériences cognitives sur la perception de la tonalité et l'effet des harmoniques des notes de musique. Les différentes méthodes sont évaluées et comparées pour la première fois sur une grande base de données composée de morceaux de musique populaire. Nous présentons ensuite une nouvelle approche qui permet d'estimer de manière simultanée la progression des accords et les premiers temps d'un signal audio de musique. Pour cela, nous proposons une topologie spécifique de HMM qui nous permet de modéliser la dépendance des accords par rapport à la structure métrique d'un morceau. Une importante contribution est que notre modèle peut être utilisé pour des structures métriques complexes présentant par exemple l'insertion ou l'omission d'un temps, ou des changements dans la signature rythmique. Le modèle proposé est évalué sur un grand nombre de morceaux de musique populaire qui présentent des structures métriques variées. Nous comparons les résultats d'un modèle semi-automatique, dans lequel nous utilisons les positions des temps annotées manuellement, avec ceux obtenus par un modèle entièrement automatique où la position des temps est estimée directement à partir du signal. Enfin, nous nous penchons sur la question de la tonalité. Nous commençons par nous intéresser au problème de l'estimation de la tonalité principale d'un morceau de musique. Nous étendons le modèle présenté ci-dessus à un modèle qui permet d'estimer simultanément la progression des accords, les premiers temps et la tonalité principale. Les performances du modèle sont évaluées à travers des exemples choisis dans la musique populaire. Nous nous tournons ensuite vers le problème plus complexe de l'estimation de la tonalité locale d'un morceau de musique. Nous proposons d'aborder ce problème en combinant et en étendant plusieurs approches existantes pour l'estimation de la tonalité principale. La spécificité de notre approche est que nous considérons la dépendance de la tonalité locale par rapport aux structures harmonique et métrique. Nous évaluons les résultats de notre modèle sur une base de données originale composée de morceaux de musique classique que nous avons annotés.

Joint Estimation of Musical Content Information From an Audio Signal

Estimation conjointe d'information de contenu musical d'un signal audio

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager