Ressources et méthodes semi-supervisées pour l'analyse sémantique de texte en français

Claire Mouton

Résumé

The possibility of performing semantic rather than purely lexical search should improve information retrieval. This Ph.D work aims at developing modules of lexical semantic analysis, having as a further objective to improve the textual search engine of Exalead company. Presented works deal more speci cally with semantic analysis on the French language. Processing of French language is more complex due to the lack of semantic resources and corpora for this language. Thus, make such an analysis possible implies on the one hand to provide for needs of French linguistic resources, and on the other hand, to nd alternate methods which do not require any manually annotated French corpus. Our thesis is divided in three main parts followed by a conclusion. The first part is composed of two chapters which de ne the objectives and the context of our work. The first of them introduces our thesis. It evokes some semantic issues in the eld of Information Retrieval, then tries to de ne the notion of sense. Finally, it identi es two semantic analysis tasks, namely word sense disambiguation and semantic role labeling. These two tasks are the two main topics we address in our whole study. They are respectively handled in part 2 and 3. The second chapter draws up a state-of-the-art review of all the topics addressed in our work. The second part tackles the word sense disambiguation issue. Chapter 3 is devoted to the building of new French resources dedicated to this task. We rst describe a method to automatically translate the nominal synsets of WordNet to French, by using bilingual dictionaries and distributional spaces. Secondly, we put forward an adaptation of two existing methods of word sense induction, in order to acquire a word senses resource in a fully automatic way. Moreover, the sense clusters built in the latter step show originality as they contain words whose syntax is similar to the the syntax of the given ambiguous words. The so-called sense clusters are then used in the word sense disambiguation algorithm that we put forward in chapter 4. This chapter also provides recommendations in order to integrate such a module in a textual search engine. Semantic role labeling is handled in the third part. In a similar fashion, a rst chapter deals with the building of resources for the French language, whereas the following chapter presents the algorithm developed for the labeling task itself. Chapter 5 thus describes the method we propose to translate and enrich FrameNet predicates, as well as the related evaluation. We propose in chapter 6 a semi-supervised approach which uses the distributional spaces to label semantic roles. We conclude this chapter with some considerations on the use of semantic roles in information retrieval and more speci cally in the scope of question answering systems. The conclusion of our thesis summarizes our contributions. It emphasizes the fact that each step of our work uses syntactical distributional spaces and that it provides interesting results. This conclusion also draws the main perspectives we see to pursue our studies. The main and immediate concern is to integrate these semantic analysis modules into prototypes for textual documents search.

Pouvoir chercher des informations sur un niveau sémantique plutôt que purement lexical devrait améliorer la recherche d'informations. Cette thèse a pour objectif de développer des modules d'analyse sémantique lexicale a n d'améliorer le système de recherche de documents textuels de la société Exalead. Les travaux présentés concernent plus spécifi quement l'analyse sémantique de texte en français. La problématique liée au traitement du français réside dans le fait qu'il n'existe que peu de ressources sémantiques et de corpus annotés pour cette langue. Rendre possible une telle analyse implique donc d'une part de pourvoir aux besoins en ressources linguistiques françaises, et d'autre part, de trouver des méthodes alternatives ne nécessitant pas de corpus français manuellement annoté. Notre manuscrit est structuré en trois parties suivies d'une conclusion. Les deux chapitres de la première partie délimitent les objectifs et le contexte de notre travail. Le premier introduit notre thèse en évoquant la problématique de la sémantique en recherche d'information, en présentant la notion de sens et en identifiant deux tâches d'analyse sémantique : la désambiguïsation lexicale et l'analyse en rôles sémantiques. Ces deux tâches font l'objet de l'ensemble de notre étude et constituent respectivement les parties 2 et 3. Le second chapitre dresse un état de l'art de toutes les thématiques abordées dans notre travail. La deuxième partie aborde le problème de la désambiguïsation lexicale. Le chapitre 3 est consacré à la constitution de nouvelles ressources françaises pour cette tâche. Nous décrivons dans un premier temps une méthode de traduction automatique des synsets nominaux de WordNet vers le français à partir de dictionnaires bilingues et d'espaces distributionnels. Puis, nous constituons une ressource automatiquement en proposant une adaptation de deux méthodes d'induction de sens existantes. L'originalité des clusters de sens ainsi constitués est de contenir des mots dont la syntaxe est proche de celle des mots source. Ces clusters sont alors exploités dans l'algorithme que nous proposons au chapitre 4 pour la désambiguïsation elle-même. Le chapitre 4 fournit également des recommandations concernant l'intégration d'un tel module dans un système de recherche de documents. L'annotation en rôles sémantiques est traitée dans la troisième partie. Suivant une structure similaire, un premier chapitre traite de la constitution de ressources pour le français, tandis que le chapitre suivant présente l'algorithme développé pour l'annotation elle-même. Ainsi, le chapitre 5 décrit nos méthodes de traduction et d'enrichissement des prédicats de FrameNet, ainsi que l'évaluation associée. Nous proposons au chapitre 6 une méthode semi-supervisée exploitant les espaces distributionnels pour l'annotation en rôles sémantiques. Nous concluons ce chapitre par une ré flexion sur l'usage des rôles sémantiques en recherche d'information et plus particulièrement dans le cadre des systèmes de réponses à des questions posées en langage naturel. La conclusion de notre mémoire résume nos contributions en soulignant le fait que chaque partie de notre travail exploite les espaces distributionnels syntaxiques et que ceci permet d'obtenir des résultats intéressants. Cette conclusion mentionne également les perspectives principales que nous inspirent ces travaux. La perspective principale et la plus immédiate est l'intégration de ces modules d'analyse sémantique dans des prototypes de recherche documentaire.

Ressources et méthodes semi-supervisées pour l'analyse sémantique de texte en français

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager