4081 articles – 3 Notices  [english version]
Voir la fiche concise Communications avec actes
Annotation référentielle du Corpus Arboré de Paris 7 en entités nommées
Sagot B. et al
Traitement Automatique des Langues Naturelles (TALN), Grenoble : France (2012) - http://hal.inria.fr/hal-00703108
Liste des fichiers attachés à ce document :
PDF
taln12ftbne.pdf(207.3 KB)
Benoît Sagot ()1, Marion Richard ()1, 2, Rosa Stern ()1, 3
1 :  INRIA Paris-Rocquencourt - ALPAGE
http://www.inria.fr/equipes/alpage
INRIA – Université Paris VII - Paris Diderot
Université Paris Diderot, Bât. Olympe de Gouges, case postale 7003, 75205 Paris cedex 13 - INRIA Rocquencourt
France
2 :  ISHA - Institut des Sciences Humaines Appliquées
http://www.paris-sorbonne.fr/nos-formations/les-ufr/sciences-humaines/sciences-humaines-appliquees-isha/presentation-3133/
Université Paris IV - Paris Sorbonne
Maison de la Recherche 28 rue Serpente 75006 Paris
France
3 :  Medialab AFP - Medialab AFP
Agence France-Presse
Agence France-Presse – Medialab 2 place de la Bourse 75002 Paris
France
Sciences de l'Homme et Société/Linguistique
Informatique/Informatique et langage
Annotation référentielle du Corpus Arboré de Paris 7 en entités nommées
The French TreeBank developed at the University Paris 7 is the main source of morphosyntactic and syntactic annotations for French. However, it does not include explicit information related to named entities, which are among the most useful information for several natural language processing tasks and applications. Moreover, no large-scale French corpus with named entity annotations contain referential information, which complement the type and the span of each mention with an indication of the entity it refers to. We have manually annotated the French TreeBank with such information, after an automatic pre-annotation step. We sketch the underlying annotation guidelines and we provide a few figures about the resulting annotations.
Le Corpus Arboré de Paris 7 (ou French TreeBank) est le corpus de référence pour le français aux niveaux morphosyntaxique et syntaxique. Toutefois, il ne contient pas d'annotations explicites en entités nommées. Ces dernières sont pourtant parmi les informations les plus utiles pour de nombreuses tâches en traitement automatique des langues et de nombreuses applications. De plus, aucun corpus du français annoté en entités nommées et de taille importante ne contient d'annotation référentielle, qui complète les informations de typage et d'empan sur chaque mention par l'indication de l'entité à laquelle elle réfère. Nous avons annoté manuellement avec ce type d'informations, après pré-annotation automatique, le Corpus Arboré de Paris 7. Nous décrivons les grandes lignes du guide d'annotation sous-jacent et nous donnons quelques informations quantitatives sur les annotations obtenues.
I.: Computing Methodologies/I.2: ARTIFICIAL INTELLIGENCE/I.2.7: Natural Language Processing
Français

06/2012
nationale
Traitement Automatique des Langues Naturelles (TALN)
Grenoble
France
06/2012
Georges Antoniadis, Hervé Blanchon, Gilles Sérasset
Actes de la conférence conjointe JEP-TALN-RECITAL 2012
2 - TALN

LabEx EFL
9961