Réseau de neurones dynamique perceptif - Application à la reconnaissance de structures logiques de documents - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2007

Dynamic and perceptive neural network applied to document logical structure recognition

Réseau de neurones dynamique perceptif - Application à la reconnaissance de structures logiques de documents

Yves Rangoni
  • Fonction : Auteur
  • PersonId : 830537

Résumé

Logical structure extraction of documents remains a challenging problem due to their inherent complexity and the gap between the physical features extracted from the image and their corresponding logical interpretation. Most of the literature proposes model-driven approaches which are not enough generic to handle complex and noisy documents. They do not use intermediate interpretation steps and do not explain the relationships between the physical blocks and the corresponding logical labels. The main objective of the thesis is to develop a hybrid method, using both data-driven and model-driven approach, which is capable to learn the relationships and simulate human perception during the logical recognition task. We have proposed a Dynamic Perceptive Neural Network which can handle drawbacks of previous systems. Four main points have been developed: - a special network topology based on local representation where the knowledge can be integrated in. The logical interpretation is unfolded along the layers of the network and a training stage is performed to find the weights for each link; - perceptive cycles (several bottom-up and top-down processes) perform the recognition. The network is able to generate hypothesis, validate them and detect ambiguous patterns. The context manages the correction of the input features to improve the recognition rate; - an input feature clustering has been proposed to speed-up the recognition. Subsets of features are automatically computed and are given progressively to feed the network in order to adapt the amount of computations according to the pattern complexity; - dynamic integration in the network that make it possible to integrate the data correction information during the training stage to have more appropriate behavior during the recognition. The improvement uses a Time Delay Neural Network architecture to take into account the input data variations after each perceptive cycle while the recognition step is quite similar to the static one.
L'extraction de structures logiques de documents est un défi du fait de leur complexité inhérente et du fossé existant entre les observations extraites de l'image et leur interprétation logique. La majorité des approches proposées par la littérature sont dirigées par le modèle et ne proposent pas de solution générique pour des documents complexes et bruités. Il n'y a pas de modélisation ni d'explication sur les liens permettant de mettre en relation les blocs physiques et les étiquettes logiques correspondantes. L'objectif de la thèse est de développer une méthode hybride, à la fois dirigée par les données et par le modèle appris, capable d'apprentissage et de simuler la perception humaine pour effectuer la tâche de reconnaissance logique. Nous avons proposé le Réseau de Neurones Dynamique Perceptif qui permet de s'affranchir des principales limitations rencontrées dans les précédentes approches. Quatre points principaux ont été développés : - utilisation d'une architecture neuronale basée sur une représentation locale permettant d'intégrer de la connaissance à l'intérieur du réseau. La décomposition de l'interprétation est dépliée à travers les couches du réseau et un apprentissage a été proposé pour déterminer l'intensité des liaisons ; - des cycles perceptifs, composés de processus ascendants et descendants, accomplissent la reconnaissance. Le réseau est capable de générer des hypothèses, de les valider et de détecter les formes ambigües. Un retour de contexte est utilisé pour corriger les entrées et améliorer la reconnaissance ; - un partitionnement de l'espace d'entrée accélérant la reconnaissance. Des sous-ensembles de variables sont créés automatiquement pour alimenter progressivement le réseau afin d'adapter la quantité de travail à fournir en fonction de la complexité de la forme à reconnaître ; - l'intégration de la composante temporelle dans le réseau permettant l'intégration de l'information de correction pendant l'apprentissage afin de réaliser une reconnaissance plus adéquate. L'utilisation d'un réseau à décalage temporel permet de tenir compte de la variation des entrées après chaque cycle perceptif tout en ayant un fonctionnement très proche de la version statique.
Fichier principal
Vignette du fichier
mathesec.pdf (5.95 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00584318 , version 1 (08-04-2011)

Identifiants

  • HAL Id : tel-00584318 , version 1

Citer

Yves Rangoni. Réseau de neurones dynamique perceptif - Application à la reconnaissance de structures logiques de documents. Informatique [cs]. Université Nancy II, 2007. Français. ⟨NNT : ⟩. ⟨tel-00584318⟩
371 Consultations
2718 Téléchargements

Partager

Gmail Facebook X LinkedIn More