Extraction de structures de documents par champs aléatoires conditionnels : application aux traitements des courriers manuscrits

Résumé : Le traitement automatique des documents écrits est un domaine très actif dans le monde industriel. En effet, devant la masse de documents écrits à traiter, l'analyse automatique devient une nécessité mais les performances des systèmes actuels sont très variables en fonction des types de documents traités. Par exemple, le traitement des documents manuscrits non contraints reste une problématique non encore résolue à ce jour car il existe toujours deux verrous technologiques qui freinent la mise en place de systèmes fiables de traitement automatique des documents manuscrits : - la première concerne la reconnaissance des écritures manuscrites ; - la seconde est liée à l'existence d'une grande variabilité de structures de documents. Cette thèse porte sur la résolution de ce deuxième verrou dans le cas de documents manuscrits non contraints. Pour cela, nous avons développé des méthodes fiables et robustes d'analyse de structures de documents basées sur l'utilisation de Champs Aléatoires Conditionnels. Le choix des Champs Aléatoires Conditionnels est motivé par la capacité de ces modèles graphiques à prendre en compte les relations entre les différentes entités du document (mots, phrases, blocs, ...) et à intégrer des connaissances contextuelles. De plus, l'utilisation d'une modélisation probabiliste douée d'apprentissage permet de s'affranchir de la variabilité inhérente des documents à traiter. L'originalité de la thèse porte également sur la proposition d'une approche hiérarchique permettant l'extraction conjointe des structures physique (segmentation du document en blocs, lignes, ...) et logique (interprétation fonctionnelle de la structure physique) en combinant des caractéristiques physiques de bas niveau (position, représentation graphique, ...) et logiques de haut niveau (détection de mots clés). Les expérimentations effectuées sur des courriers manuscrits montrent que le modèle proposé représente une solution intéressante de par son caractère discriminant et sa capacité naturelle à intégrer et à contextualiser des caractéristiques de différentes natures.
Type de document :
Thèse
Traitement du texte et du document. Université de Rouen, 2011. Français


https://tel.archives-ouvertes.fr/tel-00652301
Contributeur : Florent Montreuil <>
Soumis le : jeudi 15 décembre 2011 - 11:39:05
Dernière modification le : mercredi 20 mai 2015 - 01:15:33
Document(s) archivé(s) le : vendredi 16 mars 2012 - 02:26:54

Identifiants

  • HAL Id : tel-00652301, version 1

Collections

Citation

Florent Montreuil. Extraction de structures de documents par champs aléatoires conditionnels : application aux traitements des courriers manuscrits. Traitement du texte et du document. Université de Rouen, 2011. Français. <tel-00652301>

Exporter

Partager

Métriques

Consultations de
la notice

240

Téléchargements du document

489