FILTRAGE SEMANTIQUE DE TEXTES
PROBLEMES, CONCEPTION ET REALISATION
D'UNE PLATE-FORME INFORMATIQUE

Résumé : L'expérience du résumé automatique m'a amené à élargir le champ de mes recherches en visant non plus de simples résumés automatiques non ciblés, mais des systèmes automatiques de filtrage sémantique d'informations, adaptés aux besoins spécifiques d'une tâche d'identification. Divers travaux menés parallèlement dans l'équipe LALIC depuis plusieurs années ont en effet permis d'identifier une même problématique qui relève du filtrage sémantique dans des textes.
Ce filtrage sémantique se fonde sur la méthode d'exploration contextuelle. Il s'effectue en exploitant des connaissances purement textuelles, indépendantes d'un domaine particulier, ce qui signifie que nous ne cherchons pas à construire des ontologies. Ces connaissances s'expriment sous forme de marqueurs linguistiques discursifs explicites d'une notion sémantique et sont organisées pour des tâches précises. L'exploitation de ces connaissances a pour finalité d'attribuer une ou plusieurs valeurs sémantiques à une unité textuelle. Il devient ainsi possible de produire un extrait textuel en « filtrant » les unités textuelles étiquetées selon le point de vue adopté. En d'autres termes, le filtrage sémantique est un moyen pour fouiller un texte selon le point de vue d'un utilisateur.
Ma recherche s'est déployée selon deux axes :
• La construction d'un système d'expression de l'exploration contextuelle ;
• La conception d'une plate-forme d'ingénierie linguistique, FilText, plate-forme dans laquelle s'inscrivent les concepts et méthodes définis.
Je présenterai l'architecture conceptuelle de la plate-forme FilText ainsi que les possibilités offertes par ContextO, instance logicielle de Filtext.
Enfin, je montrerais en quoi la problématique du filtrage sémantique d'informations s'étend à d'autres disciplines des sciences humaines dans lesquelles la recherche d'informations dans des textes constitue une activité essentielle des chercheurs.
Document type :
Habilitation à diriger des recherches
Complete list of metadatas

Cited literature [98 references]  Display  Hide  Download

https://tel.archives-ouvertes.fr/tel-00098023
Contributor : Jean-Luc Minel <>
Submitted on : Saturday, September 23, 2006 - 4:41:22 PM
Last modification on : Thursday, February 7, 2019 - 1:31:55 AM
Long-term archiving on : Monday, April 5, 2010 - 11:49:28 PM

Identifiers

  • HAL Id : tel-00098023, version 1

Citation

Jean-Luc Minel. FILTRAGE SEMANTIQUE DE TEXTES
PROBLEMES, CONCEPTION ET REALISATION
D'UNE PLATE-FORME INFORMATIQUE. Linguistique. Université Paris-Sorbonne - Paris IV, 2002. ⟨tel-00098023⟩

Share

Metrics

Record views

687

Files downloads

1424