Extraction et regroupement de descripteurs morpho-syntaxiques pour des processus de Fouille de Textes - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2009

Extraction et regroupement de descripteurs morpho-syntaxiques pour des processus de Fouille de Textes

Résumé

Words are one of the grounds of European languages. Corpora written with these languages are normally describe by words. However, extracted information given by words is semantically poor. Actually, to take into account the complexity of European languages are really important. As a result, we propose in this thesis to feature the characteristic of European languages by using syntactic informations in order to discover new semantic knowledge from corpora. First, we present SELDE, a model of feature selection. This one is based on objects extracted from syntactic relations of a corpus. We experiment SELDE on textual classification tasks by proposing Ex- pLSA, an approach used to make a corpus expansion by using the SELDE features. The goal of ExpLSA is to combine the SELDE features with the statistic method LSA. The SELDE model gives relevant features but cannot be apply with all kinds of textual data. Thus, we propose different approaches adapted to specific textual data, called complex textual data. We experiment our approaches with noised data, bad written data, and data without syntactic informations. Finally, we propose the SELDEF model. It introduce the automatic validation of syntactic relations called induced. Two validation approaches are proposed : a Semantic-Vector-based approach and a Web Validation system. The Semantic Vectors approach is a Roget-based method which computes a syntactic relation as a vector. Web Validation uses a search engine to determine the relevance of a syntactic relation. Then, we propose approaches to combine both in order to rank induced syntactic relations. We experiment SELDEF in a conceptual classes building task. Obtained results confirm the quality of validation approaches and quality of built classes.
Les mots constituent l'un des fondements des langues naturelles de type indo-européenne. Des corpus rédigés avec ces langues sont alors naturellement décrits avec des mots. Cependant, l'information qu'ils véhiculent seuls est assez réduite d'un point de vue sémantique. Il est en effet primordial de prendre en compte la complexité de ces langues comme par exemple leurs propriétés syntaxiques, lexicales et sémantiques. Nous proposons dans cette thèse de prendre en considération ces propriétés en décrivant un corpus par le biais d'informations syntaxiques permettant de découvrir des connaissances sémantiques. Nous présentons dans un premier temps un modèle de sélection de descripteurs SelDe. Ce dernier se fonde sur les objets issus des relations syntaxiques d'un corpus. Le modèle SelDe a été évalué pour des tâches de classification de données textuelles. Pour cela, nous présentons une approche d'expansion de corpus, nommée ExpLSA, dont l'objectif est de combiner les informations syntaxiques fournies par SelDe et la méthode numérique LSA. Le modèle SelDe, bien que fournissant des descripteurs de bonne qualité, ne peut être appliqué avec tous types de données textuelles. Ainsi, nous décrivons dans cette thèse un ensemble d'approches adaptées aux données textuelles dites complexes. Nous étudions la qualité de ces méthodes avec des données syntaxiquement mal formulées et orthographiées, des données bruitées ou incomplètes et finalement des données dépourvues de syntaxe. Finalement un autre modèle de sélection de descripteurs, nommé SelDeF, est proposé. Ce dernier permet de valider de manière automatique des relations syntaxiques dites “induites”. Notre approche consiste à combiner deux méthodes. Une première approche fondée sur des vecteurs sémantiques utilise les ressources d'un thésaurus. Une seconde s'appuie sur les connaissances du Web et des mesures statistiques afin de valider les relations syntaxiques. Nous avons expérimenté SelDeF pour une tâche de construction et d'enrichissement de classes conceptuelles. Les résultats expérimentaux montrent la qualité des approches de validation et reflètent ainsi la qualité des classes conceptuelles construites.

Domaines

Autre [cs.OH]
Fichier principal
Vignette du fichier
These.pdf (8.98 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00462206 , version 1 (08-03-2010)

Identifiants

  • HAL Id : tel-00462206 , version 1

Citer

Nicolas Béchet. Extraction et regroupement de descripteurs morpho-syntaxiques pour des processus de Fouille de Textes. Autre [cs.OH]. Université Montpellier II - Sciences et Techniques du Languedoc, 2009. Français. ⟨NNT : ⟩. ⟨tel-00462206⟩
328 Consultations
1858 Téléchargements

Partager

Gmail Facebook X LinkedIn More