Multi-lingual scene text detection based on convolutional neural networks - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2022

Multi-lingual scene text detection based on convolutional neural networks

Détection de texte de scène multilingue basée sur des réseaux de neurones convolutifs

Résumé

This dissertation explores text detection approaches via deep learning techniques towards achieving the goal of mining and retrieval of weakly structured contents in scene images. First, this dissertation presents a method for detecting text in scene images based on multi-level connected component (CC) analysis and learning text component features via convolutional neural networks (CNN), followed by a graph-based grouping of overlapping text boxes. The features of the resulting raw text/non-text components of different granularity levels are learned via a CNN. The second contribution is inspired from YOLO: Real-Time Object Detection system. Both methods perform text detection and script identification simultaneously. The system presents a joint text detection and script identification approach based on casting the multi-script text detection task as an object detection problem, where the object is the script of the text. Joint text detection and script identification strategy is realized in a holistic approach using a single convolutional neural network where the input data is the full image and the outputs are the text bounding boxes and their script. Textual feature extraction and script classification are performed jointly via a CNN. The experimental evaluation of these methods are performed on the Multi-Lingual Text MLT dataset. We contributed in building this new dataset. It is constituted of natural scene images with embedded text, such as street signs and advertisement boards, passing vehicles, user photos in microblog. This kind of images represents one of the mostly encountered image types on the internet which are the images with embedded text in social media.
Cette thèse propose des approches de détection de texte par des techniques d'apprentissage profond pour explorer et récupérer des contenus faiblement structurés dans des images de scène naturelles. Ces travaux proposent, dans un premier temps, une méthode de détection de texte dans des images de scène naturelle basée sur une analyse multi-niveaux des composantes connexes (CC) et l'apprentissage des caractéristiques du texte par un réseau de neurones convolutionnel (CNN), suivie d'un regroupement des zones de texte détectées par une méthode à base de graphes. Les caractéristiques des composantes texte brut/non-texte obtenues à différents niveaux de granularité sont apprises via un CNN. Une deuxième méthode est présentée dans cette thèse inspirée du système YOLO. Le système réalise la détection du texte et l'identification du script simultanément. Nous considérons la tâche de détection de texte multi script comme un problème de détection d'objets, où l'objet est le script du texte. La détection de texte et l'identification des scripts sont réalisées avec une approche holistique en utilisant un réseau neuronal convolutionnel unique. Les évaluations expérimentales de ces approches sont réalisées sur le jeu de données MLT (Multi-Lingual Text dataset), nous avons contribué à la création de ce nouveau jeu de données. Il est composé d'images de scènes naturelles et synthétiques contenant du texte, tels que des panneaux de circulation et publicitaires, des noms de magasins, d'images extraites des réseaux sociaux. Ce type d'images représente l'un des types d'images les plus fréquemment rencontrés sur Internet, à savoir les images avec du texte incorporé dans les réseaux sociaux.
Fichier principal
Vignette du fichier
2022Khlif195780.pdf (11.36 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03993260 , version 1 (16-02-2023)

Identifiants

  • HAL Id : tel-03993260 , version 1

Citer

Wafa Khlif. Multi-lingual scene text detection based on convolutional neural networks. Document and Text Processing. Université de La Rochelle; Université de Sfax (Tunisie), 2022. English. ⟨NNT : 2022LAROS022⟩. ⟨tel-03993260⟩
87 Consultations
53 Téléchargements

Partager

Gmail Facebook X LinkedIn More