Contributions à la correction automatique des erreurs syntaxiques dans la langue Arabe - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2020

Contributions to the automatic correction of syntactic errors in the Arabic language

Contributions à la correction automatique des erreurs syntaxiques dans la langue Arabe

Moukrim Chouaib
  • Fonction : Auteur
  • PersonId : 1065912

Résumé

Natural Language Processing (NLP) has been a growing area of research in computer science and cognitive sciences, using many experimental methods. The syntax is one of the most important properties of natural language. It contains a set of structural rules that are shared among native speakers to allow smooth communication. Automatic syntax error correction is an NLP application that attempts to correct syntactical errors in a given source sentence using computational (computer sciences) and linguistic models. This thesis explores the problem of syntactic errors in the Arabic language. To achieve this goal, we have proposed two solutions: The first is a new approach based on the automatic generation of correct sentences. First, we extract the words from the considered sentence and we then generate all the possible sentences that are syntactically correct; based on a logical description of the rules of Arabic grammar in the ontology. We will afterwards compare the original sentence with the generated sentences to detect any eventual errors followed by the correction phase. In case the system has not found a sentence that looks similar to the original sentence, the correct alternative sentences are automatically offered. Successful tests were performed using a set of Arabic sentences. The implemented system achieved an accuracy rate of about 92% and a recall rate of about 84%. By observing the results obtained, we conclude that this approach is promising. The second solution deals with the correction of syntactic errors, particularly of the case ending using “Stanford Parser” as well as an ontology which contains the rules of the Arabic language. First, we segment the text into sentences. Secondly, we extract the annotations of each word with the syntactic relations coming from this parser. Then we treat the relations obtained with our ontology. Finally, we compare the original sentence with the corrected one to detect the error.
Le Traitement Automatique de Langues (TAL) est un domaine de recherche en plein essor en informatique et en sciences cognitives utilisant de nombreuses méthodes expérimentales. La syntaxe est l'une des propriétés les plus importantes de la langue. Elle contient un ensemble de règles structurelles par lesquelles les unités linguistiques se combinent en phrases qui sont partagées entre les locuteurs natifs afin de permettre une communication fluide. La correction automatique des erreurs syntaxiques est parmi les applications de TAL, elle vise à corriger les erreurs syntaxiques dans une phrase source donnée en se basant sur des modèles informatiques et linguistiques. La présente thèse de doctorat traite le problème des erreurs syntaxiques dans la langue arabe. Pour réaliser cet objectif nous avons proposé deux solutions : La première est une nouvelle approche basée sur la génération automatique de phrases correctes. Tout d'abord, nous extrayons les mots de la phrase concernée. Ensuite, à partir de ces mots et grâce à une description logique des règles de la grammaire arabe dans l'ontologie nous générons toutes les phrases possibles. Nous comparons ensuite la phrase d'origine avec les phrases (correctes syntaxiquement) générées pour détecter d'éventuelles erreurs. Enfin, dans la phase de correction, si le système ne trouve aucune phrase qui ressemble à la phrase d'origine, les phrases alternatives correctes seront automatiquement proposées. Des tests réussis ont été effectués à l'aide d'un corpus de phrases arabes. Le système mis en œuvre a atteint un taux de précision d'environ 92% et un taux de rappel d'environ 84%. En observant les résultats obtenus, nous concluons que cette approche est prometteuse. La deuxième solution traite la correction des erreurs syntaxiques, particulièrement de désinence casuelle, en utilisant l'analyseur syntaxique «Stanford Parser » ainsi que l'ontologie de la grammaire Arabe qui contient les règles de la langue arabe. En premier lieu, nous segmentons le texte en phrases. En second lieu, nous extrayons les traits morpho-syntaxiques de chaque mot avec les relations syntaxiques provenant du parseur Stanford. Ensuite, nous traitons les relations obtenues avec l'ontologie. En dernier lieu, nous comparons la phrase d'origine avec la phrase corrigée afin de détecter l’erreur.
Fichier principal
Vignette du fichier
rapport these moukrim chouaib.pdf (3.03 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

tel-02500467 , version 1 (05-03-2020)

Identifiants

  • HAL Id : tel-02500467 , version 1

Citer

Moukrim Chouaib. Contributions à la correction automatique des erreurs syntaxiques dans la langue Arabe. Intelligence artificielle [cs.AI]. Faculté des Sciences Ben M'sik Université Hassan II Casablanca, 2020. Français. ⟨NNT : ⟩. ⟨tel-02500467⟩
300 Consultations
386 Téléchargements

Partager

Gmail Facebook X LinkedIn More