Linear Combination of multiresolution descriptors: Application to Graphics Recognition

Oriol Ramos Terrades

Résumé

In the field of Document Analysis we would like to be able to automatically process any kind of digital document. We mean extracting the document layout and identifying each of its parts, recognising its contents and organising them in order to make searches of its components, through the document itself, but also through different documents. This is a challenger problem that has motivated different lines of research in the field of Document Analysis at different levels: Pre-processing techniques have been developed to upgrade the quality of the document image, reducing noise from the input devices and minimizing the effects of the degradation of documents. A deep study in segmentation has been carried out in order to separate the regions of interest from the document background. Finally, many descriptors have been proposed for representing and identifying these regions of interest since the end of 60s until now.

In this thesis, we have focused on, this last problem, the shape description description and also on classifier fusion, to apply them to one of the application fields in the Document Analysis: the graphics recognition. In shape recognition, many applications have to face the problem of describing a large number of complex shapes for recognition or retrieval in large databases. Besides the large number of shapes, we can find other challenges for shape description, such as the similarity among some of the shapes or the variability of the shape classes. In these cases, one of the key issues is the design of highly discriminant shape descriptors. Unfortunately, one kind of descriptor is not usually enough to achieve satisfactory results and hence, we have to combine the information from different sources to improve the global performance of the recognition system. We have carried out this combination of information using classifier fusion.

Concerning shape description, traditionally graphics have been represented using structural descriptors, which are based on a vectorial representation of the shape. Vectorization is quite sensitive to noise and to distortions of sketched symbols. We can try to overcome this problem using grammar descriptors or deformable models of shapes. Another possibility, which is the followed in this dissertation, is to propose descriptors that do not need a vectorial representation of the symbol. Thereby, in the context of shape description, we have proposed a descriptor based on the ridgelets transform which, thanks to we have unified the terminology used in shape description and the introduced vocabulary, we can define as: 2D, polar and multi-resolution descriptor information preserving and invariant to similarities. On the other hand, although ridgelets descriptor can be considered as a single descriptor, it offers a shape representation divided into groups of coefficients, which permit us to consider them as single descriptors. Thus, for each descriptor, we have trained a classifier and we have proposed two linear combination rules, IN and DN, that minimize the classification error of classifiers verifying a set of constraints concerning the dependence and the distribtuion of classifers.

These theoretical approaches have been evaluated through an experimental evaluation in ridgelets descriptors, classifier fusion and applying the classifier fusion methods to ridge lets descriptors, obtaining the following results: Ridgelets descriptors have proven to represent graphics symbols better than general purpose descriptors. IN and DN methods reduce the misclassification rates regarding other reference fusion methods. Finally, the IN method applied to ridgelets descriptor, in combination of boosting algorithms, has reached recognition rates near to 100% in the test defined for the GREC'03 database.

Dans le domaine de l'analyse de documents on voudrait être capable de traiter automatiquement n'importe quel genre de documents numériques et d'extraire l' information la plus importante. Plus précisément, on voudrait connaître la configuration du document,identifier chacune de ses parties et reconnaître ses contenus, pour faire des requêtes par le contenu du document lui-même mais aussi, parmi des documents différents. Ceci est une problème difficile qui a suscité un nombre important de travaux à différents niveaux. On a développé un ensemble de techniques destinés à pré-traiter les images numériques afin d'augmenter leurs qualités, en réduisant le bruit provenant des systèmes d'acquisition et en minimisant les effets de la dégradation des documents. On trouve aussi, beaucoup de travaux destinés à la segmentation de zones d'intérêts du fond du document. Finalement, depuis les années 60 à aujourd'hui un nombre important des descripteurs on été proposé pour représenter ces zones d'intérêts.

Dans ce thèse, nous avons travaillé sur la description des formes et la fusion de classificateurs pour les appliquer à la reconnaissance de graphiques. Dans la reconnaissance de formes, beaucoup d'applications sont confrontées au problème de description de grands ensembles de formes complexes pour les reconnaître, mais aussi pour les identifier dans des grandes bases de données. En plus du nombre important de formes on doit également faire face aux problèmes de similitude des formes ou de variabilité des classes des symboles. Dans ces cas, un point clé dans le processus de la reconnaissance des formes est la définition de descripteurs ayant une grande capacité de discrimination. Malheureusement, un seul descripteur ne suffit pas pour obtenir des résultats satisfaisants et donc, nous devons combiner l'information provenant de différentes sources pour améliorer le comportement global du système de reconnaissance. Cette combinaison est réalisée par un mécanisme de fusion des classificateurs.

Par rapport aux descriptions des formes, traditionnellement les symboles graphiques ont été représentés par des descripteurs structurelles, construits à partir d'une représentation vectorielle. Les méthodes de vectorisation sont sensibles aux bruits et aux distorsions des symboles ébauchés. On peut essayer de contourner ce problème en définissant une grammaire de descripteurs ou en construisant des modèles déformables des symboles. Une autre possibilité, celle poursuivie dans ce mémoire, est d'utiliser des descripteurs que n'ont pas besoin d'une représentation vectorielle. Dans le contexte de la description des formes on a proposé un descripteur basé sur la transformation de ridgelets qu'on peut définir comme: multiresolution, polaire, en 2D et qui préserve l'information d'invariance aux similitudes. D'un autre coté, malgré qu'on puisse considérer ce descripteur comme un seul, il nous offre une représentation des formes permettant de la décomposer en groupes de coefficients de ridgelets qui sont chacun définis comme un descripteur. De cette manière, pour chaque descripteur, nous avons entraîné des classifieurs qui sont combinés linéairement en utilisant des règles de combinaison: IN (Indépendant et Normale) et DN (Dépendant et Normal), que minimisent l'erreur de classification pour ces classifieurs par rapport à un ensemble de contraintes.

Ces développements théoriques ont été validés à partir d'un ensemble de résultats expérimentaux. Les descripteurs ridgelets décrivent mieux les symboles que d'autres descripteurs plus classiques. Les règles de fusion IN et DN réduisent l'erreur de classification par rapport aux autres méthodes de références. Enfin, la méthode IN appliquée aux descripteurs de ridgelets, en combinaison avec des classificateurs du genre "boosting", aboutie à un taux de reconnaissance d'environ 100% sur la base de données définies au workshop GREC'03.

Linear Combination of multiresolution descriptors: Application to Graphics Recognition

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager