Détection d'objets dans les documents numérisés par réseaux de neurones profonds - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2023

Object detection in digitized documents by neural networks

Détection d'objets dans les documents numérisés par réseaux de neurones profonds

Résumé

Whether they are historical or modern, printed or handwritten, documents constitute a valuable collection of information that is usually difficult to access. The transformation of these documents into digital documents is now possible through their digitization and the automatic extraction of their contents. This extraction requires the detection of different elements such as text lines, which are essential to obtain the transcription of the image's textual contents. Although many methods have been proposed to detect these elements, the analysis of document structure remains a difficult problem: the proposed models suffer from difficulties in generalizing to new data and more complex structures, and they require many training examples.In this thesis, we study multiple tasks related to document layout analysis such as the detection of text lines, the splitting into acts or the detection of the writing support. Thus, we propose two deep neural models following two different approaches. We aim at proposing a model for object detection that considers the difficulties associated with document processing, including the limited amount of training data available. Moreover, existing systems can have long processing times that can result in significant financial costs and negative ecological impacts. In an industrial setting, the use of such systems does not seem appropriate, so it is necessary to propose more parsimonious models in terms of number of parameters to obtain reduced training and inference times.In this respect, we propose a pixel-level detection model and a second object-level detection model. We first propose a detection model with few parameters, fast in prediction, and which can obtain accurate prediction masks from a reduced number of training data. The pretraining of this model on different annotated datasets allowed us to obtain significant performance gains. These results led us to implement a strategy of collection and uniformization of many datasets, which are used to train a single line detection model that demonstrates high generalization capabilities to out-of-sample documents.We also propose a Transformer-based detection model. The design of such a model required redefining the task of object detection in document images and to study different approaches. Following this study, we propose an object detection strategy consisting in sequentially predicting the coordinates of the objects enclosing rectangles through a pixel classification. This strategy allows obtaining a fast model with only few parameters. Preliminary experiments on text line detection show good performances.Finally, in an industrial setting, new non-annotated data are often available. Thus, in the case of a model adaptation to this new data, it is expected to provide the system as few new annotated samples as possible. The selection of relevant samples for manual annotation is therefore crucial to enable successful adaptation. Thus, it is necessary for the systems to perform the final task while automatically assessing their confidence about their own decisions. This way, less confident decisions can be manually annotated, while more confident decisions are kept as is to provide an automatic annotation.For this purpose, we propose confidence estimators from different approaches for object detection. The first approach is inspired by the Monte Carlo method and consists in building confidence estimates using the dropout method at test time. Our second proposal consists in building an independent dedicated system, trained to predict a confidence estimate with a single prediction during inference. We show that these estimators greatly reduce the amount of annotated data while optimizing the performances.
Qu'ils soient historiques ou modernes, imprimés ou manuscrits, les documents constituent un ensemble précieux d'informations souvent difficilement accessible dans leur forme originale. La transformation de ces documents en documents digitaux est désormais possible grâce à l'extraction automatique de leurs contenus. Celle-ci nécessite la détection de différents éléments tels que les lignes de texte, éléments cruciaux afin d'obtenir la transcription du texte présent dans les images.Dans cette thèse, nous étudions différentes tâches liées à l'analyse de la mise en page de documents telles que la détection de lignes de texte, du support d'écriture, ou encore la séparation en actes. Nous proposons deux modèles fondés sur des réseaux de neurones profonds suivant deux approches différentes. Notre objectif est de proposer des modèles permettant de détecter les objets en tenant compte des difficultés liées au traitement de documents, notamment le nombre restreint de données d'entraînement disponibles. De plus, les systèmes existants peuvent présenter des temps de traitement longs qui peuvent entraîner des coûts financiers importants et des impacts écologiques négatifs. Dans un cadre industriel, l'utilisation de tels systèmes ne semble pas appropriée, il est donc nécessaire de proposer des modèles plus parcimonieux en termes de nombre de paramètres afin d'obtenir des temps d'entraînement et d'inférence plus réduits.Dans cette optique, nous proposons un modèle de détection niveau pixel et un second modèle de détection niveau objet. Nous commençons par proposer un modèle de détection comportant peu de paramètres, rapide en prédiction, et qui permet d'obtenir des masques de prédiction précis à partir d'un nombre réduit de données d'apprentissage. Le pré-entraînement de ce modèle sur différents jeux de données annotés a permis d'obtenir des gains significatifs de performances. Ces résultats nous ont donc conduits à mettre en place une stratégie de collecte et d'uniformisation de jeux de données, utilisés afin d'entraîner un modèle unique de détection de lignes démontrant de grandes capacités de généralisation à des documents hors échantillon.Nous proposons également un modèle de détection à base de Transformers. La conception d'un tel modèle a nécessité de redéfinir la tâche de détection d'objets dans les images de documents. Suite à cette étude, nous proposons une stratégie de détection d'objets consistant à prédire séquentiellement les coordonnées des rectangles englobant les objets grâce à une classification pixel. Cette stratégie permet d'obtenir un modèle comportant peu de paramètres et rapide en inférence. Les expériences de détection de lignes de texte montrent des bonnes performances.Enfin, dans un cadre industriel, de nouvelles données non annotées sont souvent disponibles. Ainsi, dans le cas de l'adaptation d'un modèle à ces nouvelles données, on s'attend à fournir au système le minimum de nouveaux exemples annotés. Le choix des exemples pertinents pour l'annotation manuelle est donc crucial pour permettre une adaptation réussie. Il est donc nécessaire que les systèmes effectuent la tâche finale tout en évaluant automatiquement leur confiance quant à leurs décisions. Ainsi, les décisions moins confiantes peuvent être annotées manuellement, tandis que les décisions plus confiantes sont conservées telles quelles pour fournir une annotation automatique.À cet égard, nous proposons des estimateurs de confiance pour la détection d'objets. La première approche est inspirée de la méthode de Monte Carlo et consiste à construire des estimations de confiance en utilisant la méthode du dropout au moment du test. Notre seconde proposition consiste à construire un système dédié indépendant, entraîné à prédire une estimation de confiance depuis une seule prédiction pendant l'inférence. Nous montrons que ces estimateurs permettent de réduire fortement la quantité de données annotées tout en optimisant les performances.
Fichier principal
Vignette du fichier
melodieboillet.pdf (16.39 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04223095 , version 1 (29-09-2023)

Identifiants

  • HAL Id : tel-04223095 , version 1

Citer

Melodie Boillet. Détection d'objets dans les documents numérisés par réseaux de neurones profonds. Réseau de neurones [cs.NE]. Normandie Université, 2023. Français. ⟨NNT : 2023NORMR033⟩. ⟨tel-04223095⟩
53 Consultations
7 Téléchargements

Partager

Gmail Facebook X LinkedIn More