Influence des annotations imparfaites sur les systèmes de Traitement Automatique des Langues, un cadre applicatif: la résolution de l'anaphore pronominale

Davy Weissenbacher

Résumé

It is not possible for a science computing system to process a text when sequences, like words or sentences, are not annotated. However, to date, no system has been able to automatically produce a perfect annotation of a text. This report poses the following question; which is the better natural language processing system: a system designed to integrate imperfect annotations in its reasoning process or a system designed to work with perfect annotation but dealing with imperfect annotations? To answer this, we have proposed a probabilistic inference model based on Bayesian Networks (BN), a formalism well adapted to reasoning from imperfect data. We have worked on the resolution of the anaphoric pronoun it and validate our model in evaluating two BN on different corpora: a BN dedicated to the impersonal pronoun recognition problem and a BN dealing with the choice of the antecedent problem. The performance of the first BN achieves better results than competing state of the art systems thus highlighting the strengths of our model. The performance of the second BN on the choice of the antecedent problem, which is known to be a difficult task, is not as good. However, the results are still comparable with the performance achieved by the state of the art systems and lead to an interesting outcome: when the imperfection of the annotation is taken into account in the inference process, using bad quality annotations slightly worsens the overall performances of the system; when using better quality annotations, yet still not perfect, the results achieved are significantly better.

Un système informatique ne peut traiter automatiquement un texte sans qu'un certain nombre d'informations contenues dans ce texte, comme les mots ou les phrases, ne soient annotées. L'annotation est en général produite automatiquement par un processus incrémental. Pour ajouter un nouveau niveau d'annotation un système exploite des annotations d'entrée, plus "simples", produites par les systèmes qui ont été appliqués précédemment au texte. Or aucun système d'annotation, à ce jour, ne réalise automatiquement une annotation parfaite d'un texte. En raison de la complexité et de la diversité de la langue naturelle, le biais de représentation est élevé : il est difficile d'isoler les annotations l'entrée discriminantes qui sont nécessaires pour annoter un texte. De plus, ces annotations d'entrée, résultant elles-même d'un calcul automatique, sont imparfaites i.e. imprécises, bruitées et parfois manquantes. Enfin, le corpus sur lequel ont été choisies les annotations d'entrée discriminantes est un rassemblement artificiel de textes d'un même domaine qui donne une vue partielle de la langue. Cette erreur l'estimation implique une variation importante de la fiabilité de ces annotations lorsque le système est appliqué sur un corpus d'un autre domaine. L'imperfection des annotations d'entrée et de sortie des systèmes de traitement automatique des langues (TAL) semble être une fatalité avec laquelle nous devons composer plutôt qu'un désagrément passager dû à la maturité naissante des techniques de TAL. Nous ne pouvons donc pas l'ignorer. L'imprécision des annotations se transmet et augmente à chaque niveau d'annotation du traitement d'un document. Si nous pouvons chercher à atténuer l'imperfection des informations d'entrée en réduisant le biais de représentation et l'erreur d'estimation, elles ne seront certainement jamais, sans intervention humaine, d'une qualité parfaite. Ce constat fait, une série de questions s'impose. Quelles sont les caractéristiques que le modèle de représentation des informations d'entrée doit réunir pour réduire le biais de représentation ? Comment adapter le statut des informations d'entrée dans le processus l'inférence du système lorsque, le système étant appliqué à un corpus d'un autre domaine, leur utilité vient à changer ? L'étude de la logique nous montre que nous savons raisonner formellement à partir d'informations imparfaites mais pouvons-nous en espérer un bénéfice pour le TAL ? Autrement dit, lequel de ces deux systèmes de TAL obtient les meilleures performances : un système qui intègre l'imperfection des informations d'entrée dans son processus de raisonnement ou un système prévu pour raisonner à partir d'informations d'entrée parfaites mais travaillant avec des informations imparfaites ? Pour répondre à ces questions, nous avons proposé un classifieur reposant sur le modèle des réseaux bayésiens. Ce modèle d'inférence probabiliste est adapté pour raisonner sur les données de la langue naturelle. La possibilité de représenter dans un formalisme unique les attributs hétérogènes qui décrivent les annotations d'entrée diminue le biais de représentation. Tous les attributs pertinents pour une tâche d'annotation peuvent être exploités lors de l'inférence et les données de chaque classe discriminées au mieux. Les probabilités conditionnelles a priori associées au réseau expriment un ensemble de contraintes dont nous nous servons pour estimer les valeurs inconnues des attributs et renforcer la fiabilité des attributs les plus bruités. De plus, leur apprentissage automatique atténue l'erreur d'estimation. L'étape d'apprentissage adapte les probabilités conditionnelles aux corpus et garantit que les attributs engagés dans la décision du classifieur sont toujours discriminants. Nous avons validé notre modèle sur le problème de la résolution du pronom it anaphorique dans les textes anglais. Nous avons conçu et implémenté un classifieur pour la distinction des pronoms impersonnels des pronoms anaphoriques et pour le choix de l'antécédent puis, nous avons évalué les deux classifieurs sur des corpus de domaines et de genres différents. L'analyse des résultats du classifieur pour la distinction des pronoms impersonnels a mis clairement en évidence l'intérêt de notre approche. Les résultats de notre classifieur sont meilleurs que ceux des systèmes de l'état de l'art concurrents. Sur la tâche plus difficile du choix de l'antécédent, les résultats de notre second classifieur sont moins satisfaisants mais ils restent comparables aux résultats des systèmes de l'état de l'art : lorsque l'imperfection des attributs est prise en compte dans l'inférence, l'emploi d'attributs de mauvaise qualité ne dégrade que très faiblement les performances du système ; si, sans être parfaits, les attributs sont de meilleure qualité, leur utilisation améliore significativement les performances du système. De plus, l'analyse des erreurs du classifieur montre qu'il est encore trop simple et qu'il modélise imparfaitement le problème du choix de l'antécédent. Pour corriger ces défauts du classifieur, nous proposons, en dernière partie de cette thèse, le prototype d'un nouveau classifieur reposant sur une extension des réseaux bayésiens dynamiques.

Effects of imperfect annotations on Natural Language Processing systems, an applicative case study: the pronominal anaphora resolution

Influence des annotations imparfaites sur les systèmes de Traitement Automatique des Langues, un cadre applicatif: la résolution de l'anaphore pronominale

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager