Optimization of fast deep learning models for audio analysis and synthesis
Optimisation de modèles d'apprentissage rapides pour l'analyse et la synthèse audio
Résumé
Thanks to recent progress in deep learning, we are now able to analyse and generate complex audio data. Many new applications are possible: automatic transcription of music tracks, source separation, speech synthesis with different speakers, synthesis of new instruments etc. In this thesis, we aim at developing a simple architecture, that is both fast and accurate, able to solve different audio tasks such as the modelisation of musical instruments or source separation. The training of such models requires the use of stochastic optimization techniques, of which we will cover the relevant theoretical aspects.
Les récents progrès en apprentissage profond permettent désormais l’analyse détaillée de données audio ainsi que leur génération. Les applications sont multiples : transcription automatique de morceaux de musique, séparation de source, synthèse vocale avec différentes identités du locuteur, synthèse de nouveaux instruments, etc. Pour cette thèse, l’objectif est de trouver une architecture simple, rapide et précise capable de résoudre des tâches comme la modélisation d’instruments de musique, ou la séparation de source. L’entraînement de tels modèles implique l’utilisation de technique d’optimisation stochastique dont nous chercherons également à couvrir les aspects théoriques.
Origine : Version validée par le jury (STAR)