Introduction de la vision perceptive pour la reconnaissance de la structure de documents

Aurélie Lemaitre Legargeant

Abstract

The human perceptive vision combines several points of view in order to improve the interpretation of a scene. It is modeled by a physiologic component, the perceptive cycle, guided by a psychological aspect, the visual attention. This mechanism is the base of our work on a generic method for document structure recognition. In this context, we propose the formalism of perceptive layer and some multiresolution tools to simulate the perceptive vision and the visual attention. This produces the perceptive method DMOS-P, which is an improvement of the existing DMOS method. Thanks to this method, it becomes possible to easily specify some complex mechanisms of perceptive cooperation, adapted to each kind of document, and that improve the recognition of the structure. We point out a mechanism of prediction/verication, linked to the perceptive vision : at low resolution, hypotheses on the contents are proposed, that are veried at a higher resolution. This mechanism simplies and improves document recognition : for noisy documents, the perceptive vision makes it possible to select only relevant information, whereas for low structured documents, the perceptive vision helps to rebuild the structure. We validated this approach on various kinds of structured documents (incoming mail, archive registers, newspapers. . .), at a large scale (more than 80,000 images) and thanks to an industrial transfer to Evodia company.

La vision perceptive humaine combine différents niveaux de perception pour faciliter l'interprétation d'une scène. Les physiologistes la modélisent par le cycle perceptif, guidé par un facteur psychologique, l'attention visuelle. Ce fonctionnement est à la base de nos travaux sur une méthode générique pour l'analyse de documents structurés. Dans ce contexte, nous proposons le formalisme de calque perceptif ainsi que des outils de multirésolution, pour simuler le cycle perceptif et l'attention visuelle. Le formalisme du calque perceptif permet de fusionner des informations issues de différents niveaux de perception, en étant guidé par des connaissances. Nous aboutissons ainsi à une architecture complète de vision perceptive, DMOS-P, qui est un enrichissement de la méthode DMOS de reconnaissance de documents. Grâce à cette méthode, il devient possible de spécifier simplement des mécanismes complexes de coopération perceptive, adaptés à chaque type de problème, qui améliorent la reconnaissance de la structure de documents. Nous mettons en évidence un mécanisme de prédiction/vérification lié à la vision perceptive : la vision à basse résolution permet d'émettre des hypothèses sur la structure en utilisant le contexte global ; ces hypothèses sont ensuite vérifiées à plus haute résolution. Ce mécanisme simplifie et améliore la reconnaissance des documents : lorsque les indices visuels sont denses (documents bruités ou à structure complexe), la vision perceptive permet de mieux sélectionner les données structurelles pertinentes ; lorsque l'information structurelle est physiquement diuse (documents ayant une structure pauvre), la vision perceptive permet de mieux reconstituer la structure du document. Nous avons validé cette approche sur des documents à structure variée (courriers manuscrits, registres d'archives, presse. . .), à grande échelle (plus de 80 000 images), et de manière industrielle grâce au transfert technologique vers la société Evodia.

Use of perceptive vision for document structure recognition

Introduction de la vision perceptive pour la reconnaissance de la structure de documents

Abstract

Keywords

Domains

Dates and versions

Identifiers

Cite

Export

Collections

Share