Désambiguïsation Morphologique de Textes Arabes à Base de Classification Possibiliste pour la Recherche d'Information Socio-Sémantique

Raja Ayed

Résumé

This thesis proposes new methods of morphological disambiguation of Arabic texts based on possibilistic classification. These approaches identify the correct morphological analysis of a non-vocalized Arabic word from the morphological dependencies extracted from a vocalized corpus. We implement three classification models for morphological disambiguation: (i) A disambiguation model based on the possibility measure and presenting the basic disambiguation approach, (ii) a disambiguation model that uses the necessity measure and, (iii) a model that combines necessity and possibility measures. We enrich these approaches with information gains to weight the classification attributes in order to reduce the space needed to remove the contextual ambiguity, hence the simplification of the disambiguation process. We also propose a hybrid possibilistic approach that combines the possibilistic classifier with linguistic rules to assign labels to different morphological attributes. This approach improves the disambiguation rates of Arabic texts. We present an approach that treats the "out-of-vocabulary" words whose morphological analysis is unknown. To compare our possibilistic disambiguation tool with other tools, we propose a method of transforming imperfect classification data for non-possibilistic disambiguation. This comparison proves the contribution of the possibility theory for the morphological disambiguation of Arabic texts. Our challenge is, also, to build some relative and necessary resources for Arabic IR. Thus, we create a new standard collection "Kunuz", from the corpus of hadiths, for the testing and the evaluation of Arabic IRS. The relevance judgment is realized using our web portal that we call "Kunuz Al Mustapha". The socio-semantic richness of the Hadithian corpus encourages us to set up an information retrieval system based on social knowledge taken out from the narrative chains of hadiths and semantics extracted from the structured themes of each hadith. Indexing units are extracted using our possibilistic disambiguation tool. After solving the specific problems related to Arabic language for Information Retrieval, the social aspect of the hadith texts was highlighted by presenting a new mutli-criteria search mode. Hence, the search query is composed. It is observed along two axes: a social axis and a semantic axis. This system that we call RISSA is evaluated according the Kunuz standard collection.

La présente thèse propose des nouvelles méthodes de désambiguïsation morphologique des textes arabes basées sur la classification possibiliste. Ces approches identifient l’analyse morphologique correcte d’un mot arabe non voyellé à partir des dépendances morphologiques extraites des corpus de textes voyellés. Nous mettons en place trois modèles de classification pour la désambiguïsation morphologique: (i) Un modèle de désambiguïsation basé sur la mesure de possibilité et présentant l’approche de désambiguïsation de base, (ii) un modèle de désambiguïsation basé sur la mesure de nécessité et, (iii) un modèle de désambiguïsation basé sur la combinaison des mesures de nécessité et de possibilité. Nous enrichissons ces modèles par des mesures de gain permettant de pondérer les attributs de classification afin de réduire l’espace nécessaire pour lever l’ambiguïté contextuelle d’où la simplification du processus de désambiguïsation. Nous proposons, également, une approche possibiliste hybride qui combine le classifieur possibiliste avec des règles linguistiques pour attribuer des étiquettes aux différents attributs morphologiques. Cette approche améliore le taux de désambiguïsation des textes arabes. Nous présentons une approche de traitement des mots « hors-vocabulaire » dont l’analyse morphologique est inconnue. Pour comparer notre désambiguïseur possibiliste avec d’autres outils, nous proposons une méthode de transformation des données de classification imparfaites pour la désambiguïsation non-possibiliste. Cette comparaison prouve l’apport de la théorie des possibilités pour la désambiguïsation morphologique des textes arabes. Notre défi est, également, la création de certaines ressources relatives et nécessaires pour le traitement de la RI arabe. Ainsi, nous créons une nouvelle collection standard « Kunuz », à partir du corpus des hadiths, pour le test et l’évaluation des SRI arabes. Le jugement de pertinence, des documents pour les requêtes que nous proposons, est fait par un portail que nous appelons « Kunuz Al Mustapha ». La richesse socio-sémantique du corpus hadithien nous incite à instaurer un système de recherche d’information basé sur les connaissances sociales extraites des chaînes de narration des hadiths et sémantiques tirant profil des thèmes structurés de chaque hadith. Les unités d’indexation sont déterminées par notre désambiguïseur possibiliste. Après avoir résolu les problèmes spécifiques à la langue arabe pour la réalisation d’un SRI, l’aspect social des textes des hadiths a été mis en valeur en présentant un nouveau mode de recherche mutli-critères. Ainsi, la requête de recherche est une requête composée. Dans le système que nous proposons, la requête peut être observée selon deux axes : un axe social et un axe sémantique. Ce système que nous appelons RISSA est évalué selon le standard Kunuz.

Morphological Disambiguation of Arabic Texts Based on Possibilistic Classification for Socio-Semantic Information Retrieval

Désambiguïsation Morphologique de Textes Arabes à Base de Classification Possibiliste pour la Recherche d'Information Socio-Sémantique

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager