Analyse distributionnelle appliquée aux textes de spécialité : réduction de la dispersion des données par abstraction des contextes

Résumé : Dans les domaines de spécialité, les applications telles que la recherche d’information ou la traduction automatique, s’appuient sur des ressources terminologiques pour prendre en compte les termes, les relations sémantiques ou les regroupements de termes. Pour faire face au coût de la constitution de ces ressources, des méthodes automatiques ont été proposées. Parmi celles-ci, l’analyse distributionnelle s’appuie sur la redondance d’informations se trouvant dans le contexte des termes pour établir une relation. Alors que cette hypothèse est habituellement mise en oeuvre grâce à des modèles vectoriels, ceux-ci souffrent du nombre de dimensions considérable et de la dispersion des données dans la matrice des vecteurs de contexte. En corpus de spécialité, ces informations contextuelles redondantes sont d’autant plus dispersées et plus rares que les corpus ont des tailles beaucoup plus petites. De même, les termes complexes sont généralement ignorés étant donné leur faible nombre d’occurrence. Dans cette thèse, nous nous intéressons au problème de la limitation de la dispersion des données sur des corpus de spécialité et nous proposons une méthode permettant de densifier la matrice des contextes en réalisant une abstraction des contextes distributionnels. Des relations sémantiques acquises en corpus sont utilisées pour généraliser et normaliser ces contextes. Nous avons évalué la robustesse de notre méthode sur quatre corpus de tailles, de langues et de domaines différents. L’analyse des résultats montre que, tout en permettant de prendre en compte les termes complexes dans l’analyse distributionnelle, l’abstraction des contextes distributionnels permet d’obtenir des groupements sémantiques de meilleure qualité mais aussi plus cohérents et homogènes.
Type de document :
Thèse
Informatique et langage [cs.CL]. Université Sorbonne Paris Cité, 2015. Français. 〈NNT : 2015USPCD056〉
Liste complète des métadonnées

Littérature citée [60 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-01668549
Contributeur : Abes Star <>
Soumis le : mercredi 20 décembre 2017 - 10:15:03
Dernière modification le : vendredi 31 août 2018 - 09:03:34

Fichier

edgalilee_th_2015_perinet.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01668549, version 1

Collections

Citation

Amandine Périnet. Analyse distributionnelle appliquée aux textes de spécialité : réduction de la dispersion des données par abstraction des contextes. Informatique et langage [cs.CL]. Université Sorbonne Paris Cité, 2015. Français. 〈NNT : 2015USPCD056〉. 〈tel-01668549〉

Partager

Métriques

Consultations de la notice

139

Téléchargements de fichiers

50