Analyse distributionnelle appliquée aux textes de spécialité : réduction de la dispersion des données par abstraction
des contextes

Amandine Périnet

Thèse Année : 2015

Distributional analysis applied to specialized corpora: reduction of data sparsity through context abstraction

Analyse distributionnelle appliquée aux textes de spécialité : réduction de la dispersion des données par abstraction des contextes

(1)

Amandine Périnet

Fonction : Auteur
PersonId : 970441

Laboratoire d'Informatique Médicale et Ingénierie des Connaissances en e-Santé

Résumé

In specialised domains, the applications such as information retrieval for machine translation rely on terminological resources for taking into account terms or semantic relations between terms or groupings of terms. In order to face up to the cost of building these resources, automatic methods have been proposed. Among those methods, the distributional analysis uses the repeated information in the contexts of the terms to detect a relation between these terms. While this hypothesis is usually implemented with vector space models, those models suffer from a high number of dimensions and data sparsity in the matrix of contexts. In specialised corpora, this contextual information is even sparser and less frequent because of the smaller size of the corpora. Likewise, complex terms are usually ignored because of their very low number of occurrences. In this thesis, we tackle the problem of data sparsity on specialised texts. We propose a method that allows making the context matrix denser, by performing an abstraction of distributional contexts. Semantic relations acquired from corpora are used to generalise and normalise those contexts. We evaluated the method robustness on four corpora of different sizes, different languages and different domains. The analysis of the results shows that, while taking into account complex terms in distributional analysis, the abstraction of distributional contexts leads to defining semantic clusters of better quality, that are also more consistent and more homogeneous.

Dans les domaines de spécialité, les applications telles que la recherche d'information ou la traduction automatique, s'appuient sur des ressources terminologiques pour prendre en compte les termes, les relations sémantiques ou les regroupements de termes. Pour faire face au coût de la constitution de ces ressources, des méthodes automatiques ont été proposées. Parmi celles-ci, l'analyse distributionnelle s'appuie sur la redondance d'informations se trouvant dans le contexte des termes pour établir une relation. Alors que cette hypothèse est habituellement mise en œuvre grâce à des modèles vectoriels, ceux-ci souffrent du nombre de dimensions considérable et de la dispersion des données dans la matrice des vecteurs de contexte. En corpus de spécialité, ces informations contextuelles redondantes sont d'autant plus dispersées et plus rares que les corpus ont des tailles beaucoup plus petites. De même, les termes complexes sont généralement ignorés étant donné leur faible nombre d'occurrence. Dans cette thèse, nous nous intéressons au problème de la limitation de la dispersion des données sur des corpus de spécialité et nous proposons une méthode permettant de densifier la matrice des contextes en réalisant une abstraction des contextes distributionnels. Des relations sémantiques acquises en corpus sont utilisées pour généraliser et normaliser ces contextes. Nous avons évalué la robustesse de notre méthode sur quatre corpus de tailles, de langues et de domaines différents. L'analyse des résultats montre que, tout en permettant de prendre en compte les termes complexes dans l'analyse distributionnelle, l'abstraction des contextes distributionnels permet d'obtenir des groupements sémantiques de meilleure qualité mais aussi plus cohérents et homogènes.

Mots clés

Natural Language Processing specialised corpora Terminology Distributional Analysis vector space model semantic cluster complex terms semantic relations context abstraction

Traitement Automatique des Langues textes de spécialité terminologie analyse distributionnelle modèle vectoriel groupements sémantiques termes complexes relations sémantiques abstraction de contextes

Domaines

Informatique [cs]

Fichier principal

these-perinet.pdf (1.12 Mo)

Amandine Périnet : Connectez-vous pour contacter le contributeur

https://theses.hal.science/tel-01202371

Soumis le : dimanche 20 septembre 2015-14:25:12

Dernière modification le : dimanche 26 juin 2022-05:33:18

Archivage à long terme le : mardi 29 décembre 2015-08:52:12

Dates et versions

tel-01202371 , version 1 (20-09-2015)

Identifiants

HAL Id : tel-01202371 , version 1

Citer

Amandine Périnet. Analyse distributionnelle appliquée aux textes de spécialité : réduction de la dispersion des données par abstraction des contextes. Informatique [cs]. Université Paris 13; Laboratoire d'Informatique Médicale et d'Ingénieurie des Connaissances en e-Santé, 2015. Français. ⟨NNT : ⟩. ⟨tel-01202371⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INSERM UNIV-PARIS13 UPMC LIMICS SORBONNE-UNIVERSITE SU-SCIENCES SORBONNE-PARIS-NORD

272 Consultations

1624 Téléchargements