Searching for Complex Named Entities on the Web - Proposals for Extraction and Similarity Computing
Recherche d'entités nommées complexes sur le Web - propositions pour l'extraction et pour le calcul de similarité
Résumé
Recent developments in information technologies have made the web an important data source. However,
the web content is rather unstructured. Therefore, automatically processing the web content in order
to extract relevant information is a difficult task. This is a reason why research works related to Information
Extraction (IE) on the web are growing quickly. Once extracted, this information is structured
and stored in indexes. The parsing of indexes to answer an information need corresponds to Information
Retrieval (IR). Our research work is at the crossroads of both areas. The main goal of our work is to
develop strategies and techniques for crawling the web in order to extract complex Named Entities (NEs)
(NEs with several properties that may be text or other NEs). We then propose to index them and to
query them in order to answer information needs.
This work was carried out within the T2I team of the LIUPPA laboratory, in collaboration with
Cogniteev, a company which core business is focused on the analysis of web content. The issues we had
to deal with were the extraction of complex NEs on the web and the development of IR services supplied
by the extracted data.
Our first contribution is related to complex NEs extraction from text content. We take into consideration
several problems, in particular the noisy context characterizing some properties (a web page
describing an event for example, may contain more than one date : the event’s date and the date of
ticket’s sales opening). For this particular problem, we introduce a block detection module that focuses
property’s extraction on relevant text blocks. Our experiments show an improvement of our extraction
system’s performances in a noisy context. We also focused on address extraction where the main issue
arises from the fact that there is not a standard way for writing addresses on the web. We therefore
propose a pattern-based approach which uses some lexicons for extracting addresses from text, regardless
of proprietary resources.
Our second contribution deals with similarity computation between complex NEs. In the state of
the art, this similarity computation is generally performed in two steps : (i) first, similarities between
properties are calculated ; (ii) then these similarities are aggregated to compute the overall similarity. With
regard to the first step, we extend the state of the art by proposing a similarity computation function
between spatial NEs, one represent by a point and the other by a polygon. However, our main proposals
focuses on the second step. We propose three techniques for aggregating property similarity scores. The
first two are based on the weighted sum of these scores (linear combination and logistic regression). The
third technique, uses decision trees for the aggregation. Finally, we also propose a fourth approach based
on clustering and Salton vector model. This last approach evaluates the similarity at the complex NE
level without computing property similarity scores.
Les récents développements des nouvelles technologies de l’information et de la communication font
du Web une véritable mine d’information. Cependant, les pages Web sont très peu structurées. Par
conséquent, il est difficile pour une machine de les traiter automatiquement pour en extraire des informations
pertinentes pour une tâche ciblée. C’est pourquoi les travaux de recherche s’inscrivant dans la
thématique de l’Extraction d’Information dans les pages web sont en forte croissance. Une fois extraites,
ces informations sont généralement structurées et stockées dans des index. L’interrogation de ces index,
pour répondre à des besoins d’information précis, correspond à la Recherche d’Information (RI). Notre
travail de thèse se situe à la croisée de ces deux thématiques. Notre objectif principal est de concevoir
et de mettre en oeuvre des stratégies permettant de scruter le web pour en extraire des Entités Nommées
(EN) complexes (EN composées de plusieurs propriétés pouvant être du texte ou d’autres EN) de
type entreprise ou de type événement, par exemple. Nous proposons ensuite des services d’indexation et
d’interrogation pour répondre à des besoins d’informations.
Ces travaux ont été réalisés au sein de l’équipe T2I du LIUPPA, et font suite à une commande de
l’entreprise Cogniteev, dont le coeur de métier est centré sur l’analyse du contenu du Web. Les problématiques
visées sont, d’une part, l’extraction d’EN complexes sur le Web et, d’autre part, l’indexation et la
recherche d’information intégrant ces EN complexes.
Notre première contribution porte sur l’extraction d’EN complexes dans des textes. Pour cette contribution,
nous prenons en compte plusieurs problèmes, notamment le contexte bruité caractérisant certaines
propriétés (pour un événement par exemple, la page web correspondante peut contenir deux dates : la
date de l’événement et celle de mise en vente des billets). Pour ce problème en particulier, nous introduisons
un module de détection de blocs qui permet de focaliser l’extraction des propriétés sur les blocs de
texte pertinents. Nos expérimentations montrent une nette amélioration du processus d’extraction dans
un contexte bruité grâce à cette approche. Nous nous sommes également intéressés à l’extraction des
adresses, où la principale difficulté découle du fait qu’aucun standard ne se soit réellement imposé comme
modèle de référence. Nous proposons un modèle étendu et une approche d’extraction par patrons.
Notre deuxième contribution porte sur le calcul de similarité entre EN complexes. Dans l’état de l’art,
ce calcul se fait généralement en deux étapes : (i) une première calcule les similarités entre propriétés
et, (ii) une deuxième agrège les scores obtenus pour le calcul de la similarité globale. En ce qui concerne
cette première étape, nous complétons l’état de l’art en proposant une fonction de calcul de similarité
entre EN spatiales, l’une représentée par un point et l’autre par un polygone. Notons que nos principales
propositions se situent au niveau de la deuxième étape. Ainsi, nous proposons trois techniques pour
l’agrégation des scores intermédiaires. Les deux premières sont basées sur la somme pondérée des scores
intermédiaires (combinaison linéaire et régression logistique). La troisième exploite les arbres de décisions
pour agréger les scores intermédiaires. Enfin, nous proposons une dernière approche basée sur le clustering
et le modèle vectoriel de Salton pour le calcul de similarité entre EN complexes. Son originalité vient du
fait qu’elle ne nécessite pas de passer par le calcul de scores de similarités intermédiaires
Origine : Fichiers produits par l'(les) auteur(s)
Loading...