207 articles  [english version]
Fiche concise Thèses
Modélisation Sinusoïdale à Long Terme du Signal de Parole
Firouzmand M.
PhD thesis. Institut National Polytechnique de Grenoble - INPG (2007-04-06), Laurent Girin (Dir.)
[oai:tel.archives-ouvertes.fr:tel-00211294] - http://tel.archives-ouvertes.fr/tel-00211294
Liste des fichiers attachés à ce document : 
PDF
these2007-Firouzmand.pdf(3.9 MB)
Mohammad Firouzmand1
1 :  GIPSA-lab - Grenoble Images Parole Signal Automatique
http://www.gipsa-lab.inpg.fr/
CNRS : UMR5216 – Université Joseph Fourier - Grenoble I – Université Pierre-Mendès-France - Grenoble II – Université Stendhal - Grenoble III – Institut Polytechnique de Grenoble - Grenoble Institute of Technology
Gipsa-lab - 961 rue de la Houille Blanche - BP 46 - 38402 Grenoble cedex
France
Modélisation Sinusoïdale à Long Terme du Signal de Parole
06/04/2007
La modélisation sinusoïdale du signal de parole est usuellement définie à « court terme », c'est-à-dire sur des trames successives de signal d'une durée de l'ordre de 10 à 30 ms. Cette thèse apporte une contribution nouvelle à ce domaine en ajoutant à ce niveau traditionnel de modélisation spectrale un niveau supplémentaire le long de l'axe temporel : on cherche à modéliser les trajectoires de paramètres sinusoïdaux (amplitudes et phases) sur des durées significativement plus longues que celles des trames à court terme (typiquement plusieurs centaines de ms ; on considère dans cette thèse des sections de parole continûment voisées). Nous proposons pour cela d'utiliser différents modèles à long terme à base de fonctions en cosinus discrets et de fonctions polynomiales. L'ajustement des trajectoires est réalisé par une régression au sens des moindres carrés pondérés, les poids de la régression étant déterminés par des critères perceptifs adaptés au traitement à long terme. Pour cette tâche, une série d'algorithmes itératifs est proposée et testée. L'approche à long terme se révèle à la fois efficace et parcimonieuse pour décrire la dynamique des signaux de parole voisés.
The sinusoidal model of speech signals is usually defined on a “short-term” basis, i.e. on successive frames of about 10–30 ms. In this thesis, we add to this usual spectral modeling a new level of modeling along the temporal axis: the goal is to model the temporal trajectories of the sinusoidal parameters (amplitudes and phases) over durations which are significantly longer than the short-term frames (typically several hundreds of ms; continuously voiced sections of speech are considered in this study). For this, we propose to use different long-term models based on discrete cosine and polynomial functions. The fitting of these models with the parameters trajectories is achieved by a weighted least square minimisation technique, the weights being derived from perceptual criteria which are adapted to the long-term processing. For this task, a series of iterative algorithms is proposed and tested. The proposed long-term approach is shown to provide an efficent and sparse representation of the dynamics of voiced speech signals.
Sciences de l'ingénieur/Traitement du signal et de l'image

Institut National Polytechnique de Grenoble - INPG
Electronique, Electrotechnique, Automatique, Télécommunications, Signal
signal, image, parole, télécoms
Département Parole et Cognition
Français

Laurent Girin
Pascal Perrier (président)
Frédéric Bimbot (rapporteur)
Gaël Richard (rapporteur)
Myriam Desainte-Catherine (examinatrice)
Olivier Rosec (examinateur)
Laurent Girin (directeur de thèse)

Modèle sinusoïdal de la parole – amplitudes – phases – modélisation temporelle – long terme – modèles psycho-acoustiques – compression de parole – transformation de parole
Sinusoidal model of speech – amplitudes – phases – temporal modeling – long term – psychoacoustic models – speech compression – speech transformation