Vers un système omni-langage de recherche de mots dans des bases de documents écrits homogènes

Quang Anh Bui

Thèse Année : 2015

Towards an omni-language word retrieval system applied in homogeneous document collections

Vers un système omni-langage de recherche de mots dans des bases de documents écrits homogènes

(1)

Quang Anh Bui

Fonction : Auteur

Laboratoire Informatique, Image et Interaction - EA 2118

Résumé

The objective of our thesis is to build an omni-language word retrieval system for scanned documents. We place ourselves in the context where the content of documents is homogenous and the prior knowledge about the document (the language, the writer, the writing style, etc.) is not known. Due to this system, user can freely and intuitively compose his/her query. With the query created by the user, he/she can retrieve words in homogenous documents of any language, without finding an occurrence of the word to search. The key of our proposed system is the invariants, which are writing pieces that frequently appeared in the collection of documents. The invariants can be used in query making process in which the user selects and composes appropriate invariants to make the query. They can be also used as structural descriptor to characterize word images in the retrieval process. We introduce in this thesis our method for automatically extracting invariants from document collection, our evaluation method for evaluating the quality of invariants and invariant’s applications in the query making process as well as in the retrieval process.

Notre thèse a pour objectif la construction d’un système omni-langage de recherche de mots dans les documents numérisés. Nous nous plaçons dans le contexte où le contenu du document est homogène (ce qui est le cas pour les documents anciens où l’écriture est souvent bien soignée et mono-scripteur) et la connaissance préalable du document (le langage, le scripteur, le type d’écriture, le tampon, etc.) n’est pas connue. Grâce à ce système, l'utilisateur peut composer librement et intuitivement sa requête et il peut rechercher des mots dans des documents homogènes de n’importe quel langage, sans détecter préalablement une occurrence du mot à rechercher. Le point clé du système que nous proposons est les invariants, qui sont les formes les plus fréquentes dans la collection de documents. Pour le requêtage, l’utilisateur pourra créer le mot à rechercher en utilisant les invariants (la composition des requêtes), grâce à une interface visuelle. Pour la recherche des mots, les invariants peuvent servir à construire des signatures structurelles pour représenter les images de mots. Nous présentons dans cette thèse la méthode pour extraire automatiquement les invariants à partir de la collection de documents, la méthode pour évaluer la qualité des invariants ainsi que les applications des invariants à la recherche de mots et à la composition des requêtes.

Mots clés

Graph-based representation Stroke extraction Request composition Word retrieval system Graph edit distance

Composition des requêtes Extraction de strokes Invariants Représentation basée sur graphe Distance d’édition de graphes Système de recherche de mots

Domaines

Vision par ordinateur et reconnaissance de formes [cs.CV]

Fichier principal

2015Bui70833.pdf (5.65 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-01279113

Soumis le : jeudi 25 février 2016-14:12:06

Dernière modification le : vendredi 3 juin 2022-10:24:26

Archivage à long terme le : jeudi 26 mai 2016-11:07:13

Dates et versions

tel-01279113 , version 1 (25-02-2016)

Identifiants

HAL Id : tel-01279113 , version 1

Citer

Quang Anh Bui. Vers un système omni-langage de recherche de mots dans des bases de documents écrits homogènes. Vision par ordinateur et reconnaissance de formes [cs.CV]. Université de La Rochelle, 2015. Français. ⟨NNT : 2015LAROS010⟩. ⟨tel-01279113⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

STAR UNIV-ROCHELLE THESES-LRU

121 Consultations

114 Téléchargements

Towards an omni-language word retrieval system applied in homogeneous document collections

Vers un système omni-langage de recherche de mots dans des bases de documents écrits homogènes

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager