Modélisation du langage à l'aide de pénalités structurées

Anil Kumar Nelakanti 1
1 SIERRA - Statistical Machine Learning and Parsimony
DI-ENS - Département d'informatique de l'École normale supérieure, CNRS - Centre National de la Recherche Scientifique, Inria de Paris
Résumé : La modélisation de la langue naturelle est l¿un des défis fondamentaux de l¿intelligence artificielle et de la conception de systèmes interactifs, avec applications dans les systèmes de dialogue, la génération de texte et la traduction automatique. Nous proposons un modèle log-linéaire discriminatif donnant la distribution des mots qui suivent un contexte donné. En raison de la parcimonie des données, nous proposons un terme de pénalité qui code correctement la structure de l¿espace fonctionnel pour éviter le sur-apprentissage et d¿améliorer la généralisation, tout en capturant de manière appropriée les dépendances à long terme. Le résultat est un modèle efficace qui capte suffisamment les dépendances longues sans occasionner une forte augmentation des ressources en espace ou en temps. Dans un modèle log-linéaire, les phases d¿apprentissage et de tests deviennent de plus en plus chères avec un nombre croissant de classes. Le nombre de classes dans un modèle de langue est la taille du vocabulaire, qui est généralement très importante. Une astuce courante consiste à appliquer le modèle en deux étapes: la première étape identifie le cluster le plus probable et la seconde prend le mot le plus probable du cluster choisi. Cette idée peut être généralisée à une hiérarchie de plus grande profondeur avec plusieurs niveaux de regroupement. Cependant, la performance du système de classification hiérarchique qui en résulte dépend du domaine d¿application et de la construction d¿une bonne hiérarchie. Nous étudions différentes stratégies pour construire la hiérarchie des catégories de leurs observations.
Type de document :
Thèse
Other [cs.OH]. Université Pierre et Marie Curie - Paris VI, 2014. English. 〈NNT : 2014PA066033〉
Liste complète des métadonnées

Littérature citée [247 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-01001634
Contributeur : Abes Star <>
Soumis le : mercredi 4 juin 2014 - 16:03:09
Dernière modification le : jeudi 7 février 2019 - 01:33:21
Document(s) archivé(s) le : jeudi 4 septembre 2014 - 12:35:14

Fichier

Kumartheseretourducinesoptimis...
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01001634, version 1

Citation

Anil Kumar Nelakanti. Modélisation du langage à l'aide de pénalités structurées. Other [cs.OH]. Université Pierre et Marie Curie - Paris VI, 2014. English. 〈NNT : 2014PA066033〉. 〈tel-01001634〉

Partager

Métriques

Consultations de la notice

459

Téléchargements de fichiers

738