Identification automatique d'entités pour l'enrichissement de contenus textuels

Rosa Stern 1
1 ALPAGE - Analyse Linguistique Profonde à Grande Echelle ; Large-scale deep linguistic processing
Inria Paris-Rocquencourt, UPD7 - Université Paris Diderot - Paris 7
Résumé : Cette thèse propose une méthode et un système d'identification d'entités (personnes, lieux, organisations) mentionnées au sein des contenus textuels produits par l'Agence France Presse dans la perspective de l'enrichissement automatique de ces contenus. Les différents domaines concernés par cette tâche ainsi que par l'objectif poursuivi par les acteurs de la publication numérique de contenus textuels sont abordés et mis en relation : Web Sémantique, Extraction d'Information et en particulier Reconnaissance d'Entités Nommées (\ren), Annotation Sémantique, Liage d'Entités. À l'issue de cette étude, le besoin industriel formulé par l'Agence France Presse fait l'objet des spécifications utiles au développement d'une réponse reposant sur des outils de Traitement Automatique du Langage. L'approche adoptée pour l'identification des entités visées est ensuite décrite : nous proposons la conception d'un système prenant en charge l'étape de \ren à l'aide de n'importe quel module existant, dont les résultats, éventuellement combinés à ceux d'autres modules, sont évalués par un module de Liage capable à la fois (i) d'aligner une mention donnée sur l'entité qu'elle dénote parmi un inventaire constitué au préalable, (ii) de repérer une dénotation ne présentant pas d'alignement dans cet inventaire et (iii) de remettre en cause la lecture dénotationnelle d'une mention (repérage des faux positifs). Le système \nomos est développé à cette fin pour le traitement de données en français. Sa conception donne également lieu à la construction et à l'utilisation de ressources ancrées dans le réseau des \ld ainsi que d'une base de connaissances riche sur les entités concernées.
Type de document :
Thèse
Informatique et langage [cs.CL]. Université Paris-Diderot - Paris VII, 2013. Français
Liste complète des métadonnées

Littérature citée [165 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-00939420
Contributeur : Rosa Stern <>
Soumis le : jeudi 30 janvier 2014 - 16:46:02
Dernière modification le : vendredi 4 janvier 2019 - 17:33:24

Fichier

Identifiants

  • HAL Id : tel-00939420, version 1

Collections

Citation

Rosa Stern. Identification automatique d'entités pour l'enrichissement de contenus textuels. Informatique et langage [cs.CL]. Université Paris-Diderot - Paris VII, 2013. Français. 〈tel-00939420〉

Partager

Métriques

Consultations de la notice

462

Téléchargements de fichiers

2417