Amélioration de l'intelligibilité de signaux audio de parole en contexte bruité automobile - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2021

Speech intelligibility enhancement for in-car applications

Amélioration de l'intelligibilité de signaux audio de parole en contexte bruité automobile

Résumé

Speech is nowadays present in a number of in-car applications ranging from hands-free communications, radio programs to speech synthesis messages from the various car devices.However, despite the steady car manufacturing progress, significant noise still remains in the car interior that leads to a loss of intelligibility of speech signals. The PhD work aims at developping speech reinforcement tools in order to process the signals before they are played in a noisy in-car environment.A highly effective speech reinforcement approach is to use a frequency equalizer to optimize an intelligibility criterion : the Speech Intelligibility Index (SII). To facilitate optimization, current methods are based on approximations of the criterion. In addition, by concentrating the spectral energy of the signal in areas where the ear is more sensitive, these methods increase the perceived volume which can deteriorate the user experience. Thus, in addition to proposing an exact method of solving the SII maximization problem, our work proposes to introduce and study the influence of a new perceptual constraint in order to maintain the signals at their perceived level.The popularization of machine learning approaches pushes to learn speech reinforcement processings from examples naturally produced in noise (Lombard speech), or by over-articulation (clear speech). Current work fails to achieve intelligibility gains as significant as with natural modification, and we believe that the many temporal aspects neglect may be partially responsible. Our work therefore proposes to deepen these approaches by exploiting learning models and pre-processings adapted to long duration sequences. We also propose a new modeling of the speech rate modifications that directly fits in the machine learning model which had never been done before.
La quantité de diffusion de signaux de parole dans les habitacles automobiles est de plus en plus importante : télécommunications, radio, système de navigation... Cependant, malgré les efforts et les avancées mécaniques, beaucoup de bruits persistent au sein de l'habitacle dégradant fortement l'intelligibilité de ces signaux de parole. L'objectif de cette thèse est alors de développer des outils de renforcement de la parole visant à traiter les signaux avant leur dégradation afin d'assurer une bonne intelligibilité dans le bruit des habitacles automobiles. Une approche de renforcement de la parole très performante consiste à utiliser un égaliseur fréquentiel afin d’optimiser un critère d’intelligibilité : le Speech Intelligibility Index (SII). Pour faciliter l'optimisation, les méthodes actuelles se basent sur des approximations du critère. De plus, en concentrant l'énergie spectrale du signal dans des zones où l'oreille est plus sensible, ces méthodes augmentent le volume perçu ce qui peut détériorer l'expérience utilisateur. Ainsi, en plus de proposer une méthode de résolution exacte du problème de maximisation du SII, nos travaux proposent d’introduire et étudier l'influence d'une nouvelle contrainte perceptive maintenant les signaux à leur niveau perçu. La popularisation des approches d’apprentissage automatique pousse à apprendre les traitements de renforcement de la parole à partir d’exemples naturellement produits dans le bruit (parole Lombard), ou en sur-articulant (parole claire). Les travaux actuels ne parviennent pas à obtenir des gains d’intelligibilité aussi significatifs qu’avec les modifications naturelles et nous pensons que la négligence de nombreux aspects temporels pourrait en être partiellement responsable. Nos travaux proposent donc d’approfondir ces approches en exploitant des modèles d’apprentissage et des pré-traitements adaptés aux séquences temporelles longues. Nous proposons aussi une nouvelle modélisation des modifications du débit de la parole directement intégrable dans l’apprentissage machine ce qui n'avait jamais été fait auparavant.
Fichier principal
Vignette du fichier
92534_GENTET_2021_archivage.pdf (4.62 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03675219 , version 1 (23-05-2022)

Identifiants

  • HAL Id : tel-03675219 , version 1

Citer

Enguerrand Gentet. Amélioration de l'intelligibilité de signaux audio de parole en contexte bruité automobile. Traitement du signal et de l'image [eess.SP]. Institut Polytechnique de Paris, 2021. Français. ⟨NNT : 2021IPPAT008⟩. ⟨tel-03675219⟩
101 Consultations
155 Téléchargements

Partager

Gmail Facebook X LinkedIn More