2557 articles  [english version]
Fiche détaillée Thèses
Université Pierre et Marie Curie - Paris VI (2011-06-23), Xavier Rodet (Dir.)
Versions disponibles :
Liste des fichiers attachés à ce document : 
PDF
THESIS_NO11.pdf(69.4 MB)
ANNEX
OBIN_PHD_DEFENSE_FINAL.pdf(8 MB)
MeLos: Analysis and Modelling of Speech Prosody and Speaking Style
Nicolas Obin1

Cette thèse a pour objet la modélisation de la prosodie dans le cadre de la synthèse de la parole. Nous présenterons MeLos : un système complet d'analyse et de modélisation de la prosodie, "la musique de la parole". L'objectif de cette thèse est de modéliser la stratégie, les alternatives, et le style de parole d'un locuteur pour permettre une synthèse de parole naturelle, expressive, et variée. Nous présenterons un système unifié fondé sur des modèles de Markov cachés (HMMs) à observation discrète/continue pour modéliser les caractéristiques symbolique et acoustique de la prosodie : 1) Une chaîne de traitement linguistique de surface et profonde sera introduite pour enrichir la description des caractéristiques du texte. 2) Un modèle segmental associé à la fusion de Dempster-Shafer sera utilisé pour combiner les contraintes linguistique et métrique dans la production des pauses. 3) Un modèle de trajectoire basé sur la stylisation des contours prosodiques sera présenté pour permettre de modéliser simultanément les variations à court et long terme de la F0. Le système proposé est utilisé pour modéliser les stratégies et le style d'un locuteur, et est étendu à la modélisation du style de parole par des méthodes de modélisation en contexte partagé et de normalisation du locuteur.
1 :  STMS - Sciences et Technologies de la Musique et du Son
prosodie – style de parole – synthèse de la parole – modèle de Markov caché (HMM) à observation discrète/continue – stylisation – fusion d'information – modèle de trajectoire – analyse linguistique

MeLos: Analysis and Modelling of Speech Prosody and Speaking Style
This thesis addresses the issue of modelling speech prosody for speech synthesis and presents MeLos: a complete system for the analysis and modelling of speech prosody, "the music of speech". The objective of this thesis is to model the strategy, alternatives, and speaking style of a speaker for natural, expressive, and varied speech synthesis. The present study presents original contributions with special attention paid to the combination of theoretical linguistic and statistical modelling to provide a complete speech prosody system. A unified discrete/continuous context-dependent HMM is presented to model the symbolic and the acoustic characteristics of speech prosody: 1) A rich description of the text characteristics based on a linguistic processing chain that includes surface and deep syntactic parsing is proposed to refine the modelling of the speech prosody in context. 2) Segmental HMMs and Dempster-Shafer fusion are used to balance linguistic and metric constrains in the production of a pause. 3) A trajectory model is proposed based on the stylization and the simultaneous modelling of short and long-term F0 variations over various temporal domains. The proposed system is used to model the strategies, alternatives and speaking style of a speaker, and is extended to model the speaking style of any arbitrary number of speakers using shared-context-dependent modelling and speaker normalization techniques.
speech prosody – speaking style – speech synthesis – discrete/continuous HMMs – information fusion – stylization – trajectory modelling – linguistics