Recherche d'entités nommées complexes sur le Web - propositions pour l'extraction et pour le calcul de similarité

Armel Fotsoh

Résumé

Recent developments in information technologies have made the web an important data source. However, the web content is rather unstructured. Therefore, automatically processing the web content in order to extract relevant information is a difficult task. This is a reason why research works related to Information Extraction (IE) on the web are growing quickly. Once extracted, this information is structured and stored in indexes. The parsing of indexes to answer an information need corresponds to Information Retrieval (IR). Our research work is at the crossroads of both areas. The main goal of our work is to develop strategies and techniques for crawling the web in order to extract complex Named Entities (NEs) (NEs with several properties that may be text or other NEs). We then propose to index them and to query them in order to answer information needs. This work was carried out within the T2I team of the LIUPPA laboratory, in collaboration with Cogniteev, a company which core business is focused on the analysis of web content. The issues we had to deal with were the extraction of complex NEs on the web and the development of IR services supplied by the extracted data. Our first contribution is related to complex NEs extraction from text content. We take into consideration several problems, in particular the noisy context characterizing some properties (a web page describing an event for example, may contain more than one date : the event’s date and the date of ticket’s sales opening). For this particular problem, we introduce a block detection module that focuses property’s extraction on relevant text blocks. Our experiments show an improvement of our extraction system’s performances in a noisy context. We also focused on address extraction where the main issue arises from the fact that there is not a standard way for writing addresses on the web. We therefore propose a pattern-based approach which uses some lexicons for extracting addresses from text, regardless of proprietary resources. Our second contribution deals with similarity computation between complex NEs. In the state of the art, this similarity computation is generally performed in two steps : (i) first, similarities between properties are calculated ; (ii) then these similarities are aggregated to compute the overall similarity. With regard to the first step, we extend the state of the art by proposing a similarity computation function between spatial NEs, one represent by a point and the other by a polygon. However, our main proposals focuses on the second step. We propose three techniques for aggregating property similarity scores. The first two are based on the weighted sum of these scores (linear combination and logistic regression). The third technique, uses decision trees for the aggregation. Finally, we also propose a fourth approach based on clustering and Salton vector model. This last approach evaluates the similarity at the complex NE level without computing property similarity scores.

Les récents développements des nouvelles technologies de l’information et de la communication font du Web une véritable mine d’information. Cependant, les pages Web sont très peu structurées. Par conséquent, il est difficile pour une machine de les traiter automatiquement pour en extraire des informations pertinentes pour une tâche ciblée. C’est pourquoi les travaux de recherche s’inscrivant dans la thématique de l’Extraction d’Information dans les pages web sont en forte croissance. Une fois extraites, ces informations sont généralement structurées et stockées dans des index. L’interrogation de ces index, pour répondre à des besoins d’information précis, correspond à la Recherche d’Information (RI). Notre travail de thèse se situe à la croisée de ces deux thématiques. Notre objectif principal est de concevoir et de mettre en oeuvre des stratégies permettant de scruter le web pour en extraire des Entités Nommées (EN) complexes (EN composées de plusieurs propriétés pouvant être du texte ou d’autres EN) de type entreprise ou de type événement, par exemple. Nous proposons ensuite des services d’indexation et d’interrogation pour répondre à des besoins d’informations. Ces travaux ont été réalisés au sein de l’équipe T2I du LIUPPA, et font suite à une commande de l’entreprise Cogniteev, dont le coeur de métier est centré sur l’analyse du contenu du Web. Les problématiques visées sont, d’une part, l’extraction d’EN complexes sur le Web et, d’autre part, l’indexation et la recherche d’information intégrant ces EN complexes. Notre première contribution porte sur l’extraction d’EN complexes dans des textes. Pour cette contribution, nous prenons en compte plusieurs problèmes, notamment le contexte bruité caractérisant certaines propriétés (pour un événement par exemple, la page web correspondante peut contenir deux dates : la date de l’événement et celle de mise en vente des billets). Pour ce problème en particulier, nous introduisons un module de détection de blocs qui permet de focaliser l’extraction des propriétés sur les blocs de texte pertinents. Nos expérimentations montrent une nette amélioration du processus d’extraction dans un contexte bruité grâce à cette approche. Nous nous sommes également intéressés à l’extraction des adresses, où la principale difficulté découle du fait qu’aucun standard ne se soit réellement imposé comme modèle de référence. Nous proposons un modèle étendu et une approche d’extraction par patrons. Notre deuxième contribution porte sur le calcul de similarité entre EN complexes. Dans l’état de l’art, ce calcul se fait généralement en deux étapes : (i) une première calcule les similarités entre propriétés et, (ii) une deuxième agrège les scores obtenus pour le calcul de la similarité globale. En ce qui concerne cette première étape, nous complétons l’état de l’art en proposant une fonction de calcul de similarité entre EN spatiales, l’une représentée par un point et l’autre par un polygone. Notons que nos principales propositions se situent au niveau de la deuxième étape. Ainsi, nous proposons trois techniques pour l’agrégation des scores intermédiaires. Les deux premières sont basées sur la somme pondérée des scores intermédiaires (combinaison linéaire et régression logistique). La troisième exploite les arbres de décisions pour agréger les scores intermédiaires. Enfin, nous proposons une dernière approche basée sur le clustering et le modèle vectoriel de Salton pour le calcul de similarité entre EN complexes. Son originalité vient du fait qu’elle ne nécessite pas de passer par le calcul de scores de similarités intermédiaires

Searching for Complex Named Entities on the Web - Proposals for Extraction and Similarity Computing

Recherche d'entités nommées complexes sur le Web - propositions pour l'extraction et pour le calcul de similarité

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager