Les ressources annotées, un enjeu pour l'analyse de contenu : vers une méthodologie de l'annotation manuelle de corpus

Résumé : L'annotation manuelle de corpus est devenue un enjeu fondamental pour le Traitement Automatique des Langues (TAL). En effet, les corpus annotés sont utilisés aussi bien pour créer que pour évaluer des outils de TAL. Or, le processus d'annotation manuelle est encore mal connu et les outils proposés pour supporter ce processus souvent mal utilisés, ce qui ne permet pas de garantir le niveau de qualité de ces annotations. Nous proposons dans cette thèse une vision unifiée de l'annotation manuelle de corpus pour le TAL. Ce travail est le fruit de diverses expériences de gestion et de participation à des campagnes d'annotation, mais également de collaborations avec différents chercheur(e)s. Nous proposons dans un premier temps une méthodologie globale pour la gestion de campagnes d'annotation manuelle de corpus qui repose sur deux piliers majeurs : une organisation des campagnes d'annotation qui met l'évaluation au cœur du processus et une grille d'analyse des dimensions de complexité d'une campagne d'annotation. Un second volet de notre travail a concerné les outils du gestionnaire de campagne. Nous avons pu évaluer l'influence exacte de la pré-annotation automatique sur la qualité et la rapidité de correction humaine, grâce à une série d'expériences menée sur l'annotation morpho-syntaxique de l'anglais. Nous avons également apporté des solutions pratiques concernant l'évaluation de l'annotation manuelle, en donnant au gestionnaire les moyens de sélectionner les mesures les plus appropriées. Enfin, nous avons mis au jour les processus en œuvre et les outils nécessaires pour une campagne d'annotation et instancié ainsi la méthodologie que nous avons décrite.
Type de document :
Thèse
Traitement du texte et du document. Université Paris-Nord - Paris XIII, 2012. Français
Liste complète des métadonnées

Littérature citée [180 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-00797760
Contributeur : Karën Fort <>
Soumis le : mercredi 3 juillet 2013 - 15:06:01
Dernière modification le : jeudi 11 janvier 2018 - 06:19:34
Document(s) archivé(s) le : vendredi 4 octobre 2013 - 04:10:56

Identifiants

  • HAL Id : tel-00797760, version 2

Collections

Citation

Karën Fort. Les ressources annotées, un enjeu pour l'analyse de contenu : vers une méthodologie de l'annotation manuelle de corpus. Traitement du texte et du document. Université Paris-Nord - Paris XIII, 2012. Français. 〈tel-00797760v2〉

Partager

Métriques

Consultations de la notice

863

Téléchargements de fichiers

1342