Repérage et typage d'expressions temporelles pour l'annotation sémantique automatique de pages Web - Application au e-tourisme - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2010

Extraction and mark-up of temporal expressions for automatic semantic annotation of Web pages - Application to E-tourism

Repérage et typage d'expressions temporelles pour l'annotation sémantique automatique de pages Web - Application au e-tourisme

Stéphanie Weiser
  • Fonction : Auteur
  • PersonId : 837672

Résumé

This thesis presents Adetoa, a system designed to automatically locate temporal expressions in Web pages and tag them with semantic annotations, in the field of e-tourism. A detailed linguistic study has revealed that the expression of temporal information in Web tourism pages is complex and has specific properties. A semiotic study of these pages has pointed out that data are organised in various ways, without any regularity. An automatic analysis of their structure is therefore difficult or even sometimes impossible. These analyses have led to the development of a large number of transducers (under Unitex) for the extraction and mark-up tasks. They can be regarded as a generally applicable resource. Other tourist information is also extracted, such as tourist objects and addresses. Linking transducers have been developed to group all the information concerning one tourist destination. An annotation scheme and transformation rules have been developed in order to mark the annotations and to integrate Adetoa in the processing chain of the Eiffel project. The annotation scheme is based on a tourism ontology but is not a direct replica, thus enabling the expressions to be accurately characterized on a linguistic level. The ontology has then been adapted accordingly, so that the information can more easily be included in the corresponding knowledge base. The evaluation of Adetoa, which is detailed in the last chapter, showed satisfying results, both on a theoretical level and for industrial purposes.
Cette thèse présente Adetoa, système dédié au repérage et à l'annotation sémantique automatique d'expressions temporelles dans des pages Web pour une application de e-tourisme. Une étude linguistique détaillée a permis de mettre en avant les caractéristiques et la complexité de l'expression de la temporalité dans les pages Web touristiques. Une étude sémiotique de ce type de pages a montré que les données y étaient organisées de manière fort variée, ne présentant aucune régularité, ce qui rend difficile voire parfois impossible l'automatisation de leur analyse. Ces analyses ont mené à l'élaboration d'un ensemble important de transducteurs (avec Unitex) pour les tâches de repérage et d'annotation des expressions temporelles, ce qui constitue une ressource pouvant être généralisée. De plus, d'autres informations du domaine touristique sont repérées : les objets du tourisme et les adresses. Des transducteurs de liage permettent de grouper toutes les informations concernant une même offre touristique. Pour l'annotation et l'intégration d'Adetoa à la chaîne de traitement du projet Eiffel, un schéma d'annotation et des règles de transformations ont été mis au point. Sans en être un calque direct, le schéma d'annotation suit une ontologie du tourisme. Il permet ainsi de rester au plus près des expressions linguistiques de manière à les caractériser finement. L'ontologie a ensuite pu être adaptée en conséquence, pour un meilleur stockage des données dans la base de connaissance qui lui correspond. L'évaluation d'Adetoa, présentée dans cette thèse, a montré des résultats satisfaisants aussi bien d'un point de vue théorique que pour cette application industrielle.
Fichier principal
Vignette du fichier
tel-sw.pdf (3.39 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00530785 , version 1 (29-10-2010)

Identifiants

  • HAL Id : tel-00530785 , version 1

Citer

Stéphanie Weiser. Repérage et typage d'expressions temporelles pour l'annotation sémantique automatique de pages Web - Application au e-tourisme. Linguistique. Université de Nanterre - Paris X, 2010. Français. ⟨NNT : ⟩. ⟨tel-00530785⟩
759 Consultations
814 Téléchargements

Partager

Gmail Facebook X LinkedIn More