Exploiting edge features for scene text understanding systems and scene text searching applications

Dinh Nguyen Van

Résumé

Scene texts have been attracting increasing interest in recent years as witnessed by a large number of applications such as car licence plate recognition systems, navigation systems, self-driving cars based on traffic sign, and so on. In this research, we tackle challenges of designing robust and reliable automatic scene text reading systems. Two major steps of the system as a scene text localization and a scene text recognition have been studied and novel algorithms have been developed to address them. Our works are based on the observation that providing primary scene text regions which have high probability of being texts is very important for localizing and recognizing texts in scenes. This factor can influence both accuracy and efficiency of detection and recognition systems. Inspired by successes of object proposal researches in general object detection and recognition, two state-of-the-art scene text proposal techniques have been proposed, namely Text-Edge-Box (TEB) and Max-Pooling Text Proposal (MPT). In the TEB, proposed bottom-up features, which are extracted from binary Canny edge maps, are used to group edge connected components into proposals and score them. In the MPT technique, a novel grouping solution is proposed as inspired by the max-pooling idea. Different from existing grouping techniques, it does not rely on any text specific heuristic rules and thresholds for providing grouping decisions. Based on our proposed scene text proposal techniques, we designed an end-to-end scene text reading system by integrating proposals with state-of-the-art scene text recognition models, where a false positive proposals suppression and a word recognition can be processed concurrently. Furthermore, we developed an assisted scene text searching system by building a web-page user interface on top of the proposed end-to-end system. The system can be accessed by any smart device at the link: dinh.ubismart.org:27790. Experiments on various public scene text datasets show that the proposed scene text proposal techniques outperform other state-of-the-art scene text proposals under diﬀerent evaluation frameworks. The designed end-to-end systems also outperforms other scene-text-proposal based end-to-end systems and are competitive to other systems as presented in the robust reading competition community. It achieves the ﬁfth position in the champion list (Dec-2017): http://rrc.cvc.uab.es/?ch=2&com =evaluation&task=4.

L'intérêt porté à la détection de contours pour la compréhension de texte dans une scène visuelle a été croissant au cours des dernières années comme en témoignent un grand nombre d'applications telles que les systèmes de reconnaissance de plaque d'immatriculation de voiture, les systèmes de navigation, les voitures autonomes basées sur la reconnaissance des panneaux de signalisation, etc. Dans cette recherche, nous abordons les défis de la conception de systèmes de lecture de texte de scène automatique robustes et fiables. Deux étapes majeures du système, à savoir, la localisation de texte dans une scène et sa reconnaissance, ont été étudiées et de nouveaux algorithmes ont été développés pour y remédier. Nos travaux sont basés sur l'observation qu'indiquer des régions de texte de scène primaire qui ont forte probabilité d'être des textes est un aspect important dans la localisation et la reconnaissance de cette information. Ce facteur peut influencer à la fois la précision et l'efficacité des systèmes de détection et de reconnaissance. Inspirées par les succès des recherche de proposition d'objets dans la détection et la reconnaissance objet général, deux techniques de proposition de texte de scène ont été proposées, à savoir l'approche Text-Edge-Box (TEB) et l'approche Max-Pooling Text Proposal (MPT). Dans le TEB, les fonctionnalités bottom-up proposées, qui sont extraites des cartes binaires de contours de Canny, sont utilisées pour regrouper les contours connectés et leur attribuer un score distinct. Dans la technique MPT, une nouvelle solution de groupement est proposée, qui est inspiré de l'approche Max-Pooling. À la différence des techniques de regroupement existantes, cette solution ne repose sur aucune règle heuristique spécifique liée au texte ni sur aucun seuil pour fournir des décisions de regroupement. Basé sur ces résultats, nous avons conçu un système pour comprendre le texte dans une scène visuelle en intégrant des modèles a l'état de l'art en reconnaissance de texte, où une suppression des faux positifs et une reconnaissance de mot peut être traitée simultanément. De plus, nous avons développé un système assisté de recherche de texte dans une scène en construisant une interface web en complément du système de compréhension de texte. Le système peut être consulté via le lien: dinh.ubismart.org:27790. Des expériences sur diverses bases de données publiques montrent que les techniques proposées surpassent les méthodes les plus modernes de reconnaissance de textes sous différents cadres d'évaluation. Le système complet propose surpasse également d'autres systèmes complets de reconnaissance de texte et a été soumis à une compétition de lecture automatique dans laquelle il a montré sa performance et a atteint la cinquième position dans le classement (Dec-2017): http://rrc.cvc.uab.es/?ch=2&com =evaluation&task=4.

Exploiting edge features for scene text understanding systems and scene text searching applications

Exploitation de la détection de contours pour la compréhension de texte dans une scène visuelle

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager