Stratégie domaine par domaine pour la création d'un FrameNet du français : annotations en corpus de cadres et rôles sémantiques

Résumé : Dans cette thèse, nous décrivons la création du French FrameNet (FFN), une ressource de type FrameNet pour le français créée à partir du FrameNet de l’anglais (Baker et al., 1998) et de deux corpus arborés : le French Treebank (Abeillé et al., 2003) et le Sequoia Treebank (Candito et Seddah, 2012). La ressource séminale, le FrameNet de l’anglais, constitue un modèle d’annotation sémantique de situations prototypiques et de leurs participants. Elle propose à la fois :a) un ensemble structuré de situations prototypiques, appelées cadres, associées à des caractérisations sémantiques des participants impliqués (les rôles);b) un lexique de déclencheurs, les lexèmes évoquant ces cadres;c) un ensemble d’annotations en cadres pour l’anglais.Pour créer le FFN, nous avons suivi une approche «par domaine notionnel» : nous avons défini quatre «domaines» centrés chacun autour d’une notion (cause, communication langagière, position cognitive ou transaction commerciale), que nous avons travaillé à couvrir exhaustivement à la fois pour la définition des cadres sémantiques, la définition du lexique, et l’annotation en corpus. Cette stratégie permet de garantir une plus grande cohérence dans la structuration en cadres sémantiques, tout en abordant la polysémie au sein d’un domaine et entre les domaines. De plus, nous avons annoté les cadres de nos domaines sur du texte continu, sans sélection d’occurrences : nous préservons ainsi la distribution des caractéristiques lexicales et syntaxiques de l’évocation des cadres dans notre corpus. à l’heure actuelle, le FFN comporte 105 cadres et 873 déclencheurs distincts, qui donnent lieu à 1109 paires déclencheur-cadre distinctes, c’est-à-dire 1109 sens. Le corpus annoté compte au total 16167 annotations de cadres de nos domaines et de leurs rôles.La thèse commence par resituer le modèle FrameNet dans un contexte théorique plus large. Nous justifions ensuite le choix de nous appuyer sur cette ressource et motivons notre méthodologie en domaines notionnels. Nous explicitons pour le FFN certaines notions définies pour le FrameNet de l’anglais que nous avons jugées trop floues pour être appliquées de manière cohérente. Nous introduisons en particulier des critères plus directement syntaxiques pour la définition du périmètre lexical d’un cadre, ainsi que pour la distinction entre rôles noyaux et non-noyaux.Nous décrivons ensuite la création du FFN : d’abord, la délimitation de la structure de cadres utilisée pour le FFN, et la création de leur lexique. Nous présentons alors de manière approfondie le domaine notionnel des positions cognitives, qui englobe les cadres portant sur le degré de certitude d’un être doué de conscience sur une proposition. Puis, nous présentons notre méthodologie d’annotation du corpus en cadres et en rôles. à cette occasion, nous passons en revue certains phénomènes linguistiques qu’il nous a fallu traiter pour obtenir une annotation cohérente ; c’est par exemple le cas des constructions à attribut de l’objet.Enfin, nous présentons des données quantitatives sur le FFN tel qu’il est à ce jour et sur son évaluation. Nous terminons sur des perspectives de travaux d’amélioration et d’exploitation de la ressource créée.
Type de document :
Thèse
Linguistique. Université Sorbonne Paris Cité, 2017. Français. 〈NNT : 2017USPCC007〉
Liste complète des métadonnées

Littérature citée [266 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-01661689
Contributeur : Abes Star <>
Soumis le : mardi 12 décembre 2017 - 10:06:38
Dernière modification le : jeudi 11 janvier 2018 - 06:17:44

Fichier

Djemaa_Marianne_2_va_20170614....
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01661689, version 1

Collections

STAR | LLF | USPC

Citation

Marianne Djemaa. Stratégie domaine par domaine pour la création d'un FrameNet du français : annotations en corpus de cadres et rôles sémantiques. Linguistique. Université Sorbonne Paris Cité, 2017. Français. 〈NNT : 2017USPCC007〉. 〈tel-01661689〉

Partager

Métriques

Consultations de la notice

29

Téléchargements de fichiers

21