Recherche de vidéos par le contenu basée sur l’extraction des images clés par mise en correspondance des points d’intérêts et classification des valeurs de répétabilité

Hana Gharbi

Résumé

Video summaries construction is a competitive area of research in the content based video retrieval field. The works presented in this thesis lies in this context whose main objective is to describe the videos of the database by a set of representative key frames. This process aims to facilitate the content-based video retrieval, which is composed of three phases: the description, the indexing and the retrieval. Thus, the extraction of certain global and local features is a primary task for description and indexing. Most of the state of the art methods used global features. In this work we used local features based on interest points which represents discontinuities. In a first step, we proposed a matching method based on the local description around interest points using the \LocalBinnaryPattern and the geometric invariants. This method showed its robustness against important interest points matching methods in the literature. It was used to extract features during the indexing process and it served us in the next step, which consists on proposing a new method of video key frames extraction based on local features. This provides the user with a summary containing the most representative objects in the videos in order to facilitate the search in a video database. In this context, we proposed two variants: The first variant is based on the repeatability table. First, a repeatability table was built based on the proposed matching method. This table contains the repeatability values between frames in the video. Subsequently, the classification of the repeatability values based on PCA and HAC allows the selection of the key frames that are the centers of the clusters. In order to improve this method, we proposed a second variant. In this variant, we chose a candidate set frames from the video based on a windowing rule and then a repeatability graph was constructed. This graph describes the relationship between the candidate frames in terms of repeatability. The classification of this graph using the modularity maximizing principle facilitates the process of obtaining the representative key frames of the videos. Finally, we defined an evaluation protocol dedicated to the key frames extraction methods. In addition to the qualitative and quantitative evaluation, this protocol aims to project the results obtained on content based video retrieval system, in order to ensure more the effectiveness of videos description by the keyframes obtained.

La construction des résumés de vidéos est un domaine de recherche compétitif pour la recherche de vidéos par le contenu. C'est dans ce cadre que se s'inscrivent nos travaux de thèse dont l'objectif principal est de décrire les vidéos de la base par un ensemble d'images clés, et ce pour faciliter la recherche de vidéos par le contenu dans les bases de vidéos. Ainsi, l'extraction de certaines caractéristiques globales et locales s'avère une tâche primordiale. Une des méthodes les plus courantes pour l'extraction d'informations locales s'appuie sur l'utilisation des points d'intérêts représentant une discontinuité. Dans une première _étape, nous avons proposé une méthode de mise en correspondance de ces points basée sur la description local autour des points d'intérêts par "Local Binard Pattern" et sur les invariants géométriques. Cette méthode va nous servir dans la prochaine _étape qui consiste _à proposer une nouvelle méthode d'extraction des images clés pour chaque vidéo. Ceci permet de fournir _à l'utilisateur un résume contenant les images les plus représentatives dans les vidéos an de lui faciliter la recherche dans une base de vidéos. Dans ce contexte, nous avons proposé deux variantes : La première variante est basée sur la table de répétabilité. Tout d'abord, la table de répétabilité est construite en se basant sur la méthode de mise en correspondance proposée. Cette table contient les valeurs de répétabilité entre les images de la vidéo. Par la suite, la classification des valeurs de répétabilité permet la sélection des images clés qui sont les centres des classes. Dans le but d'améliorer cet algorithme, une deuxième variante a _été proposée. Dans cette variante, des images candidates de la vidéo ont _été choisies _à l'aide d'une technique de fenêtrage puis un graphe de répétabilité a _été construit. Ce graphe décrit la relation entre les images candidates en termes de répétabilité. La classification de ce graphe en utilisant le principe de maximisation de modularité permet l'obtention des images représentatives de la vidéo. Enon, nous avons déni un protocole d'_évaluation dédie aux méthodes d'extraction des images clés. Ce protocole vise en plus de l'_évaluation qualitative et quantitative de projeter les résultats obtenus sur le domaine de recherche de vidéos par le contenu pour s'assurer davantage de l'efficacité de la description des vidéos par les images clés obtenues.

Key frame extraction for Content based video retrieval using interest points matching and repeatability values clustering

Recherche de vidéos par le contenu basée sur l’extraction des images clés par mise en correspondance des points d’intérêts et classification des valeurs de répétabilité

Résumé

Mots clés

Domaines

Dates et versions

Licence

Identifiants

Citer

Exporter

Partager