Accents régionaux en français : perception, analyse et modélisation à partir de grands corpus

Cécile Woehrling

Résumé

Large oral corpuses including regional accents of French become today available: their data offer a good base to begin the study of accents. The tools of automatic treatment of the word allow to treat quantities of data more important than the samples that the experts linguists, phoneticians or dialectologues can examine. The French language is spoken in numerous countries worldwide. Our study concerns French of continental Europe, so excluding territories as Quebec, French-speaking Africa or still French overseas departments. We shall study regional accents of France, Belgium and Swiss French. What are the geographical limits inside which it is possible to assert that the speakers have the same accent? The answer to this question is not evident. We adopted the following terminology, adapted to our data: we shall speak about accent when we shall make reference to a precise localization such as a city or a given region; we shall use the term variety to indicate a vaster group. Although numerous studies describe the peculiarities of the accents of French, there are fewer works describing the variation of the language in general, and even less from the point of view of the automatic treatment. Numerous questions remain opened. How many accents can a listener native of French identify? What performances could an automatic system reach for an identical task? Can the indications described in the linguistic literature as characteristics of certain accents be measured in a automatic way? Are they relevant to differentiate varieties of French? Shall we discover the other measurable indications on our corpuses? These indications can be put in connection with the perception? During our thesis, we approached the study of regional varieties of French from the point of view of the human perception as well as of that of the automatic treatment of the word. Traditionally, count of studies in linguistics focus on the study of a precise accent. The automatic treatment of the word allows to envisage the joint study of several varieties of French: we wanted to exploit this possibility. We can so examine what differs from a variety in the other one, what is not possible when a single variety is described. We are lucky to have at our disposal a successful system of automatic alignment of the word. This tool, which allows to segment the sound flow following a phonemic transcription, can show itself precious for the study of the variation. The automatic treatment allows us to consider several styles of word and numerous speakers on quantities of important data with regard to those who were able to be used in linguistic studies led manually. We automatically extracted characteristics of the signal by various methods; we tried to validate our results on two corpuses with accents. The parameters which we held allowed to classify automatically the speakers of our two corpuses.

De grands corpus oraux comprenant des accents régionaux du français deviennent aujourd'hui disponibles : leurs données offrent une bonne base pour entreprendre l'étude des accents. Les outils de traitement automatique de la parole permettent de traiter des quantités de données plus importantes que les échantillons que peuvent examiner les experts linguistes, phonéticiens ou dialectologues. La langue française est parlée dans de nombreux pays à travers le monde. Notre étude porte sur le français d'Europe continentale, excluant ainsi des territoires comme le Québec, l'Afrique francophone ou encore les départements d'Outre-Mer. Nous étudierons des accents régionaux de France, de Belgique et de Suisse romande. Quelles sont les limites géographiques à l'intérieur desquelles il est possible d'affirmer que les locuteurs ont le même accent ? La réponse à cette question n'est pas évidente. Nous avons adopté la terminologie suivante, adaptée à nos données : nous parlerons d'accent lorsque nous ferons référence à une localisation précise telle qu'une ville ou une région donnée ; nous utiliserons le terme variété pour désigner un ensemble plus vaste. Bien que de nombreuses études décrivent les particularités des accents du français, il existe moins de travaux décrivant la variation de la langue dans son ensemble, et encore moins du point de vue du traitement automatique. De nombreuses questions restent ouvertes. Combien d'accents un auditeur natif du français peut-il identifier ? Quelles performances un système automatique pourrait-il atteindre pour une tâche identique? Les indices décrits dans la littérature linguistique comme caractéristiques de certains accents peuvent-ils être mesurés de manière automatique ? Sont-ils pertinents pour différencier des variétés de français ? Découvrirons-nous d'autres indices mesurables sur nos corpus ? Ces indices pourront-ils être mis en relation avec la perception ? Au cours de notre thèse, nous avons abordé l'étude de variétés régionales du français du point de vue de la perception humaine aussi bien que de celui du traitement automatique de la parole. Traditionnellement, nombre d'études en linguistique se focalisent sur l'étude d'un accent précis. Le traitement automatique de la parole permet d'envisager l'étude conjointe de plusieurs variétés de français : nous avons voulu exploiter cette possibilité. Nous pourrons ainsi examiner ce qui diffère d'une variété à une autre, ce qui n'est pas possible lorsqu'une seule variété est décrite. Nous avons la chance d'avoir à notre disposition un système performant d'alignement automatique de la parole. Cet outil, qui permet de segmenter le flux sonore suivant une transcription phonémique, peut se révéler précieux pour l'étude de la variation. Le traitement automatique nous permet de prendre en considération plusieurs styles de parole et de nombreux locuteurs sur des quantités de données importantes par rapport à celles qui ont pu être utilisées dans des études linguistiques menées manuellement. Nous avons automatiquement extrait des caractéristiques du signal par différentes méthodes ; nous avons cherché à valider nos résultats sur deux corpus avec accents. Les paramètres que nous avons retenus ont permis de classifier automatiquement les locuteurs de nos deux corpus.

Accents régionaux en français : perception, analyse et modélisation à partir de grands corpus

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager