Optimization of fast deep learning models for audio analysis and synthesis

Alexandre Défossez

Thèse Année : 2020

Optimization of fast deep learning models for audio analysis and synthesis

Optimisation de modèles d'apprentissage rapides pour l'analyse et la synthèse audio

(1)

Alexandre Défossez

Fonction : Auteur

Département d'informatique - ENS Paris

Résumé

Thanks to recent progress in deep learning, we are now able to analyse and generate complex audio data. Many new applications are possible: automatic transcription of music tracks, source separation, speech synthesis with different speakers, synthesis of new instruments etc. In this thesis, we aim at developing a simple architecture, that is both fast and accurate, able to solve different audio tasks such as the modelisation of musical instruments or source separation. The training of such models requires the use of stochastic optimization techniques, of which we will cover the relevant theoretical aspects.

Les récents progrès en apprentissage profond permettent désormais l’analyse détaillée de données audio ainsi que leur génération. Les applications sont multiples : transcription automatique de morceaux de musique, séparation de source, synthèse vocale avec différentes identités du locuteur, synthèse de nouveaux instruments, etc. Pour cette thèse, l’objectif est de trouver une architecture simple, rapide et précise capable de résoudre des tâches comme la modélisation d’instruments de musique, ou la séparation de source. L’entraînement de tels modèles implique l’utilisation de technique d’optimisation stochastique dont nous chercherons également à couvrir les aspects théoriques.

Mots clés

Machine learning Optimization Artificial intelligence Audio synthesis Source separation

Apprentissage machine Optimisation Intelligence artificielle Synthèse audio Séparation de sources

Domaines

Intelligence artificielle [cs.AI] Apprentissage [cs.LG] Modélisation et simulation

Fichier principal

Defossez_2020_These.pdf (4.29 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-03575496

Soumis le : mardi 15 février 2022-15:28:23

Dernière modification le : vendredi 19 avril 2024-16:18:56

Archivage à long terme le : lundi 16 mai 2022-20:17:25

Dates et versions

tel-03575496 , version 1 (15-02-2022)

Identifiants

HAL Id : tel-03575496 , version 1

Citer

Alexandre Défossez. Optimization of fast deep learning models for audio analysis and synthesis. Artificial Intelligence [cs.AI]. Université Paris sciences et lettres, 2020. English. ⟨NNT : 2020UPSLE045⟩. ⟨tel-03575496⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

ENS-PARIS CNRS INRIA STAR THESES-ENS TDS-MACS PSL

132 Consultations

327 Téléchargements

Optimization of fast deep learning models for audio analysis and synthesis

Optimisation de modèles d'apprentissage rapides pour l'analyse et la synthèse audio

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager