Modélisation de documents combinant texte et image : application à la catégorisation et à la recherche d'information multimédia

Christophe Moulin

Thèse Année : 2011

Representation of documents combining text and image : application to categorization and multimedia information retrieval

Modélisation de documents combinant texte et image : application à la catégorisation et à la recherche d'information multimédia

(1)

Christophe Moulin

Fonction : Auteur

Laboratoire Hubert Curien

Résumé

Exploiting multimedia documents leads to representation problems of the textual and visual information within documents. Our goal is to propose a model to represent these both information and to combine them for two tasks: categorization and information retrieval. This model represents documents as bags of words, which requires to deﬁne adapted vocabularies. The textual vocabulary, usually very large, corresponds to the words of documents while the visual one is created by extracting low-level features from images. We study the different steps of its creation and the tf.idf weighting of visual words in images usually used for textual words. In the context of the text categorization, we introduce a criterion to select the most discriminative words for categories in order to reduce the vocabulary size without degrading the results of classification. We also present in the multilabel context, a method that lets us to select the number of categories which must be associated with a document. In multimedia information retrieval, we propose an analytical approach based on machine learning techniques to linearly combine the results from textual and visual information which significantly improves research results. Our model has shown its efficiency on different collections of important size and was evaluated in several international competitions such as XML Mining and ImageCLEF

L'exploitation des documents multimédias pose des problèmes de représentation des informations textuelles et visuelles contenues dans ces documents. Notre but est de proposer un modèle permettant de représenter chacune de ces informations et de les combiner en vue de deux tâches : la catégorisation et la recherche d'information. Ce modèle représente les documents sous forme de sacs de mots nécessitant la création de vocabulaires spécifiques. Le vocabulaire textuel, généralement de très grande taille, est constitué des mots apparaissant dans les documents. Le vocabulaire visuel est quant à lui construit en extrayant des caractéristiques de bas niveau des images. Nous étudions les différentes étapes de sa création et la pondération tfidf des mots visuels dans les images, inspirée des approches classiquement utilisées pour les mots textuels. Dans le contexte de la catégorisation de documents textuels, nous introduisons un critère qui sélectionne les mots les plus discriminants pour les catégories afin de réduire la taille du vocabulaire sans dégrader les résultats du classement. Nous présentons aussi dans le cadre multilabel, une méthode permettant de sélectionner les différentes catégories à associer à un document. En recherche d'information, nous proposons une approche analytique par apprentissage pour combiner linéairement les résultats issus des informations textuelles et visuelles, permettant d'améliorer significativement la recherche. Notre modèle est validé pour ces différentes tâches en participant à des compétitions internationales telles que XML Mining et ImageCLEF et sur des collections de taille conséquente

Mots clés

Représentation de documents Modèle vectoriel Modèle sacs de mots Documents multimédias Caractérisation multiclasse multilabel Recherche d'information multimédia

Domaines

Modélisation et simulation Interface homme-machine [cs.HC]

Fichier principal

manuscritMoulin.pdf (3.77 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-00630438

Soumis le : mercredi 2 mai 2012-14:02:17

Dernière modification le : vendredi 24 mars 2023-14:52:55

Archivage à long terme le : vendredi 3 août 2012-02:43:25

Dates et versions

tel-00630438 , version 1 (10-10-2011)

tel-00630438 , version 2 (02-05-2012)

Identifiants

HAL Id : tel-00630438 , version 2

Citer

Christophe Moulin. Modélisation de documents combinant texte et image : application à la catégorisation et à la recherche d'information multimédia. Modélisation et simulation. Université Jean Monnet - Saint-Etienne, 2011. Français. ⟨NNT : 2011STET4007⟩. ⟨tel-00630438v2⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-ST-ETIENNE IOGS CNRS LAHC STAR PARISTECH IOGS-THESE TDS-MACS UDL

349 Consultations

165 Téléchargements

Representation of documents combining text and image : application to categorization and multimedia information retrieval

Modélisation de documents combinant texte et image : application à la catégorisation et à la recherche d'information multimédia

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager