Approches textuelles pour la catégorisation et la recherche de documents manuscrits en-ligne - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2010

Text-based approaches to on-line handwritten document categorization and retrieval

Approches textuelles pour la catégorisation et la recherche de documents manuscrits en-ligne

Résumé

With recent technical evolutions, pen-based input devices have become very popular. As a result, large amounts of on-line handwritten data are being created. Consequently, algorithms for efficient storage and retrieval of on-line data, represented as a temporal sequence of (x,y) coordinates, are being increasingly demanded. This thesis addresses the problem of accessing textual information in on-line handwritten documents. The overall goal of this work is the design of a system for text categorization and retrieval. In order to validate the methods proposed in this study, we collected a benchmark collection of handwritten documents. The use of an on-line handwriting recognition engine, as the common component of our approaches, leads us to focus part of our work on the impact of handwriting recognition errors. We address the problem of document categorization by pipelining the output of a handwriting recognition system into the input of a text categorization engine based on machine learning algorithms. We also develop two retrieval algorithms. First, we propose combining different approaches for retrieving handwritten documents. Our hypothesis is that different retrieval algorithms should retrieve different sets of documents for the same query. Therefore, improvements in retrieval performances can be expected. The second proposed algorithm is based on the topical relationships between documents. If closely associated documents tend to be relevant to the same requests, then topically-related documents should be assigned close retrieval scores.
L'évolution technologique des dispositifs électroniques de capture de l'écriture manuscrite se traduit par l'apparition d'une grande quantité de documents manuscrits en-ligne. Cela pose la question de l'accès à l'information contenue dans ces données. Ce travail s'intéresse à l'accès à l'information textuelle contenue dans des documents qui se présentent sous la forme d'une séquence temporelle de points (x,y). Deux tâches principales ont été étudiées : la première concerne le développement d'un système de catégorisation de documents, tandis que la seconde s'intéresse à la recherche d'information dans des bases documentaires manuscrites. En amont, une première étape importante a consisté à collecter un corpus manuscrit de référence pour la validation expérimentale de cette étude. L'utilisation d'un système de reconnaissance de l'écriture étant l'élément transversal des approches proposées, une partie de notre travail a consisté à analyser le comportement de ces approches face aux erreurs de reconnaissance. La catégorisation est effectuée en enchaînant un système de reconnaissance à un système de catégorisation basé sur des méthodes d'apprentissage statistique. Pour la recherche d'information, deux approches ont été proposées. La première tire parti de la diversité des résultats restitués par des algorithmes de recherche différents, l'idée étant que la combinaison des résultats peut pallier leurs faiblesses respectives. La seconde approche exploite les relations de proximité thématique entre les documents. Si deux documents proches ont tendance à répondre au même besoin d'information, alors ces mêmes documents doivent avoir des scores de pertinence proches.
Fichier principal
Vignette du fichier
phd-thesis-hl.pdf (4.75 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00483684 , version 1 (17-05-2010)

Identifiants

  • HAL Id : tel-00483684 , version 1

Citer

Sebastián Peña Saldarriaga. Approches textuelles pour la catégorisation et la recherche de documents manuscrits en-ligne. Informatique [cs]. Université de Nantes, 2010. Français. ⟨NNT : ⟩. ⟨tel-00483684⟩
179 Consultations
979 Téléchargements

Partager

Gmail Facebook X LinkedIn More