Localisation de symboles dans les documents graphiques

Thi Oanh Nguyen

Résumé

This thesis addresses the complex problem of symbol spotting in graphical documents where symbols are not segmented a priori. Many works have been proposed to define good descriptors for isolated symbol representation. However, they cannot be directly used to locate symbols in documents because of the recognition/segmentation paradox : to recognise symbols, documents should be segmented first and vice versa, to well segment documents its content (symbols) should be recognised in advance. In this context, we present our contributions on the symbol spotting problem for graphical documents. This problem is addressed under a viewpoint which is rarely explored in the literature. In fact, most of the existing symbol spotting methods focus on structural aspect and require solving difficult and related problems in the pre-processing step such as the vectorisation or in the detection step like the graph matching. Here, we approach the symbol spotting problem directly from the pixels point of view. There are two essentials points to be addressed. The first concerns the choice of a appropriate shape descriptor to represent document content. The second refers to the process of finding a query symbol in documents. For describing symbols, a shape descriptor is proposed which is well-suited to graphic symbols and can be adapted to whole documents with non-segmented symbols. This descriptor is defined on the Shape Contexts using only the information associated to interest points. The proposed descriptor is invariant under rotation and scaling. It is also robust to deformations and partial occlusions of objects. Our symbol spotting approach is based on text retrieval techniques using the concept of “visual words”. A visual vocabulary is built on information extracted from entire documents using an extension of the proposed descriptor. An unsupervised clustering algorithm is applied on the computed descriptors to create a set of visual words. The descriptor/visual words assignment is achieved by a fuzzy matching technique. In the spotting process, regions of interest are identified according to the local matching results between the query symbol and documents. The vector model is adapted and applied on these regions to determine the regions containing occurrences of the query. The method has not yet been evaluated on real documents, however, our experiments on synthetic ones show that the proposed method has good performance in terms of precision and recall.

Cette thèse s'inscrit dans le domaine de la recherche d'images par le contenu et plus spécifiquement dans celui de l'analyse de documents. Nous abordons le problème complexe de la localisation de symboles dans les documents où les symboles ne sont pas isolés de leur contexte. Bien qu'il existe beaucoup de travaux visant à la définition de bons descripteurs pour la représentation d'un symbole, ces derniers ne peuvent généralement pas être utilisés directement pour localiser des symboles dans les documents car on se heurte au paradoxe suivant : pour reconnaître les symboles il faudrait au préalable segmenter le document et réciproquement pour bien segmenter il faudrait au préalable reconnaître le contenu du document. Dans ce contexte, nous présentons nos contributions pour la localisation de symboles dans les documents graphiques où le problème de la localisation est abordé d'un point de vue différent de la plupart des méthodes existantes dans la littérature. Dans le contexte de l'analyse de documents graphiques, pour le problème de la localisation de symboles, presque toutes les études se focalisent sur l'aspect structurel du document, ce qui nécessite de résoudre plusieurs autres problèmes difficiles qui se situent soit en amont de la chaîne de traitements telle la vectorisation soit en aval telle la détection d'isomorphisme de (sous-) graphes. Cette thèse tente de voir ce problème de localisation sous l'aspect pixelaires qui est très rarement abordé dans les travaux précédents. Ainsi, dans nos travaux, nous avons abordé deux points essentiels pour résoudre ce problème. Le premier concerne le choix d'une représentation des informations des images de documents et le second est lié au processus de localisation de ces symboles. Afin de d´ecrire les symboles, nous proposons un descripteur de formes qui s'adapte bien aux symboles graphiques et qui peut être étendu pour d´ecrire le contenu des documents entiers ayant des symboles non-segmentés. Ce descripteur est basé sur le contexte de formes et prend en compte des informations associées aux seuls points d'intérêt associés à une forme. Le descripteur proposé assure l'invariance à la rotation et au changement d'échelle. Il est également tolérant à la déformation et à l'occultation partielle de l'objet. La localisation de symboles dans les documents graphiques s'appuie sur les techniques de traitement des documents textuels grâce à la notion de mots visuels. Un vocabulaire visuel est construit à partir d'un classifieur non-supervisé sur la base d'informations issues du descripteur de formes proposé et étendu aux documents entiers. Les documents graphiques sont ainsi “textualisés” grâce au vocabulaire visuel avec une technique d'appariements multiples. Lors de la localisation, les régions candidates sont identifiées dans les documents en fonction de l'appariement local entre la requête et les documents. La détermination des régions, parmi les régions candidates, contenant les occurrences du symbole requête est opérée à l'aide d'un système de vote adaptant le modèle vectoriel usuellement utilisé en recherche d'informations. Bien que la méthode ne soit pas encore validée sur les documents réels, les expérimentations sur des documents synthétiques et la comparaison avec une autre méthode montrent la performance de la méthode proposée en termes de précision, rappel.

Symbol Spotting in Graphical Documents

Localisation de symboles dans les documents graphiques

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager