TRAITEMENT AUTOMATIQUE DU DIALECTE TUNISIEN : CONSTRUCTION DE RESSOURCES LINGUISTIQUES - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2016

Automatic processing of Tunisian dialect: construction of linguistic resources

TRAITEMENT AUTOMATIQUE DU DIALECTE TUNISIEN : CONSTRUCTION DE RESSOURCES LINGUISTIQUES

Résumé

This thesis deals with the linguistic resources creation of spoken Tunisian Arabic. First, we described a method for creating the STAC corpus (Spoken Tunisian Arabic Corpus). Our method started with the definition of two orthographic transcription conventions for writing dialectal words and annotating spontaneous oral phenomena. Then, we proposed a method for creating a Tunisian Arabic lexicon based on the STAC corpus and a modern standard Arabic lexicon. This lexicon was exploited to morphological analyze the Tunisian Arabic. To solve the ambiguity caused by the morphological analysis, we proposed a statistical method that is able to choose one correct analysis for a word in a given sentence. We proposed a hybrid method based on a set of contextual rules and a statistical method in order to detect sentence boundaries. The obtained results show that the different methods proposed for resource development for the Tunisian dialect are promising and can be exploited to provide methods for the automatic detection and correction of disfluencies.
Cette thèse s'intègre dans le cadre du traitement automatique de la langue parlée et s'intéresse à la création des ressources linguistiques pour le dialecte tunisien. D'abord, nous avons décrit une méthode pour la création du corpus STAC (Spoken Tunisian Arabic Corpus). Cette méthode commence par l'élaboration de deux conventions de transcription orthographique pour écrire les mots dialectaux et annoter les phénomènes dus au caractère spontané des productions orales. Ensuite, nous avons utilisé le corpus STAC et un lexique « racine-patron » de l'arabe standard afin de créer un lexique pour le dialecte tunisien. Ce dernier a été exploité pour analyser morphologiquement le dialecte tunisien. Pour résoudre le problème d'ambiguïté causé par l'analyse morphologique, nous avons proposé une méthode statistique permettant de choisir une seule analyse correcte pour un mot dans une phrase. Enfin, nous avons proposé une méthode hybride qui se fonde sur un ensemble de règles contextuelles et une méthode statistique afin de détecter les frontières des phrases en dialecte tunisien. Les résultats d'évaluation montrent que les différentes méthodes proposées pour le développement des ressources pour le dialecte tunisien sont prometteuses et elles peuvent être exploitées pour proposer des méthodes permettant la détection et la correction automatique des disfluences.
Fichier principal
Vignette du fichier
Rapport_These_Ines_Zribi.pdf (2.95 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

tel-02869866 , version 1 (16-06-2020)

Identifiants

  • HAL Id : tel-02869866 , version 1

Citer

Inès Zribi. TRAITEMENT AUTOMATIQUE DU DIALECTE TUNISIEN : CONSTRUCTION DE RESSOURCES LINGUISTIQUES. Informatique et langage [cs.CL]. Université de Sfax (Tunisie), 2016. Français. ⟨NNT : ⟩. ⟨tel-02869866⟩
271 Consultations
58 Téléchargements

Partager

Gmail Facebook X LinkedIn More