Application du raisonnement à partir de cas à l'analyse de documents administratifs - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2008

Application du raisonnement à partir de cas à l'analyse de documents administratifs

Hatem Hamza
  • Fonction : Auteur
  • PersonId : 899366

Résumé

This thesis deals with administrative document analysis and recognition. The continuous arrival of documents lead us to choose a methodology taking into account the previous processing experiences.We chose case-based reasoning for this reason. After extracting the document's structures like adresses, amount zones and tables, a document model is built as a graph, representing the problem to be solved. This problem is then compared to a document case base using graph probing. If a similar case exists, it is then adapted to analyze and interpret the current case. Otherwise, a structure by structure analysis is done using a document structure case base. The continuous arrival of data requires an incremental learning scheme that could be done as processing goes on. For this purpose, we proposed an improvement of an already existing neural network called Incremental Growing Neural Gas. This improvement consisted in taking into account only the local neighborhood of the nearest neuron while creating a new neuron. The proposed neural network was successfully tested on real documents (invoices, forms) and other synthetic data. This thesis was done thanks to a collaboration with the company ITESOFT. All the steps of the proposed approach were tested on real cases.
Cette thèse traite de l'analyse et de la reconnaissance de documents administratifs. L'arrivée continue des documents nous a conduit à choisir une méthodologie prenant en compte les expériences précédentes. Aussi, nous avons opté pour le raisonnement à partir de cas. A partir d'une structuration de base du document représentant ses éléments comme les adresses, les zones de montants et les tableaux, un modèle du document est construit sous forme d'un graphe. Il correspond au problème à résoudre. Ce problème est ensuite comparé à une base de cas de documents en utilisant le sondage de graphes. Si un cas de document similaire existe, alors il est adapté pour analyser et interpréter le cas courant. Sinon, une analyse structure par structure est effectuée en utilisant une base de cas de structures élémentaires de documents. L'arrivée continue des données impose un mode d'apprentissage incrémental, qui peut être fait au fur et à mesure du traitement. Nous avons donc proposé une amélioration d'un réseau de neurone incrémental existant appelé Incremental Growing Neural Gas. L'amélioration proposée consiste à prendre en compte uniquement le voisinage local du neurone le plus proche lors de la phase de création d'un nouveau neurone. Le réseau proposé a été testé avec succès aussi bien sur des documents (factures, formulaires) que sur des données synthétiques. Cette thèse étant effectuée en collaboration avec l'entreprise ITESOFT, nous avons testé toutes les étapes de notre approche sur des cas réels.
Fichier principal
Vignette du fichier
hatem_hamza_these.pdf (3.29 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00586317 , version 1 (15-04-2011)

Identifiants

  • HAL Id : tel-00586317 , version 1

Citer

Hatem Hamza. Application du raisonnement à partir de cas à l'analyse de documents administratifs. Génie logiciel [cs.SE]. Université Nancy II, 2008. Français. ⟨NNT : ⟩. ⟨tel-00586317⟩
390 Consultations
1409 Téléchargements

Partager

Gmail Facebook X LinkedIn More