Segmentation, Recognition and Indexing of Cham characters in Cham documents - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2023

Segmentation, Recognition and Indexing of Cham characters in Cham documents

Segmentation, Reconnaissance et Indexation de caractères dans les documents CHAM

Résumé

Since the demise of Champa kingdoms during the 19th century, the Cham language that originated and developed from the 2nd century, is no longer really used among the descendants of the Champa. The lack of transmission of knowledge and documents of the Cham culture makes the study of this language difficult for epigraphists and historians. Therefore, the ANR CHAMDOC project aims to preserve and provide tools for studying the Cham language. In this thesis, we focused on the analysis of two types of Cham documents namely: inscriptions, which were engraved on stone steles, from 6th to 15th century; manuscripts dating from the 18th century. Some work on the digitization of inscriptions has started but no study has really been carried out. The collection of manuscripts, for its part, has never been exploited. These two collections offer many challenges for the scientific community. During this work, we propose a complete pipeline for the automatic processing of these documents. This is based on different DIA techniques. The challenges encountered come from the characteristics of the documents themselves, but also from the linguistic specificities of Cham. An analysis of these characteristics has been carried out in order to propose solutions adapted to inscriptions and manuscripts.
Depuis la disparition des royaumes Champa au cours du 19e siècle, la langue Cham qui est née et s'est développée à partir de 2e siècle, n'est plus vraiment utilisée chez les descendants des Champa. Le manque de transmission des connaissances et des documents de la culture Cham rend, l'étude de cette langue difficile pour les épigraphistes et les historiens. Par conséquent, le projet ANR CHAMDOC vise à préserver et proposer des outils pour étudier la langue Cham. Dans cette thèse, nous nous sommes concentrés sur l'analyse de deux types de documents Cham à savoir : des inscriptions, qui ont été gravées sur des stèles en pierre, du 6e au 15e siècle et des manuscrits datant du 18e siècle. Quelques travaux sur la numérisation des inscriptions ont été menés mais aucune étude n'a vraiment été réalisée. La collection de manuscrits, quant à elle, n'a jamais été exploitée. Ces deux collections de documents offrent de nombreux défis pour la communauté scientifique. Au cours de ces travaux, nous proposons un pipeline complet pour le traitement automatique de ces documents. Celui-ci est basé sur différentes techniques d'analyse d'images de documents. Les défis rencontrés proviennent des caractéristiques des documents eux-mêmes, mais aussi des spécificités linguistiques du Cham. Une analyse de ces caractéristiques a été menée afin de proposer des solutions adaptées aux inscriptions et aux manuscrits.
Fichier principal
Vignette du fichier
2023Nguyen212175.pdf (50.65 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04439523 , version 1 (05-02-2024)

Identifiants

  • HAL Id : tel-04439523 , version 1

Citer

Tien Nam Nguyen. Segmentation, Recognition and Indexing of Cham characters in Cham documents. Image Processing [eess.IV]. Université de La Rochelle, 2023. English. ⟨NNT : 2023LAROS016⟩. ⟨tel-04439523⟩
21 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More