Contributions à la construction de résumés Vidéos :
application à la recherche d’objets génériques et à la
reconnaissance faciale

Sahbi Bahroun

Résumé

The compact description of the content of a video is currently a difficult task because of the very large amount of data it contains. difficult task because of the very large amount of data it contains. The construction of video summaries is currently an evolving field of research. evolution. It is within this framework that our research work is carried out. The main objective is to give an overview of the videos in the database in the form of a set of key images. This summary will be a starting point for the search for This summary will be a starting point for the search of videos by content in large video databases. Thus, the extraction of certain global and local features is a crucial task. A One of the most common methods for extracting local information is based on user interest points representing a discontinuity. Our research Our research work is mainly focused on two axes that are both related to video summarization. In the first research axis, we are mainly interested in the search for generic objects using a local description based on points of interest. points of interest. This axis mainly concerns applications such as search by content in a video database or e-commerce. After extracting the points of interest, they will then be described by descriptors computed in their neighborhood. in the neighborhood of these points of interest. Then, comes a matching step by adding geometric invariants. The different constraints that must be taken into account during the process of extracting local features and mapping are mainly related to the camera movement. the camera motion. For this reason, the detected primitives must provide robustness to different image transformations (rotations, changes of scale, point of view, brightness, ... etc) to obtain representative images of the video. Our second line of research focuses on the construction of video summaries for facial recognition. This axis can concern applications such as video surveillance such as video surveillance or the management of television channel archives. The face is not a generic object. Global descriptors or local descriptors such as descriptors such as points of interest are not well adapted in this case. constraints of its extraction in the best conditions are several. We We then need to use specific descriptors to properly locate, describe, and recognize the face. Indeed, face extraction from videos in cluttered environments remains a cluttered environment remains a very competitive research domain. The extraction of face keyframes, is used to define for each video, the set of identities that appear. This set should be formed from the best face images. That is to say, frontal images, neutral in emotions, of good resolution and a sufficient amount of light. Keywords: Content-based video search, key frame extraction, points of interest, facial recognition points of interest, facial recognition, and deep learning.

La description compacte du contenu d’une vidéo est actuellement une tâche dif- ficile à cause de la très grande quantité de données qu’elle contient. La construction des résumés de vidéos est à l’heure actuelle un domaine de recherche en pleine évolution. C’est dans ce cadre que se s’inscrivent nos travaux de recherche dont l’objectif principal est de donner un aperçu des vidéos de la base sous la forme d’un ensemble d’images clés. Ce résumé sera un point de départ pour la recherche de vidéos par le contenu dans les grandes bases de vidéos. Ainsi, l’extraction de certaines caractéristiques globales et locales s’avère une tâche primordiale. Une des méthodes les plus courantes pour l’extraction d’informations locales s’appuie sur l’utilisation des points d’intérêts représentant une discontinuité. Nos travaux de recherche portent principalement sur deux axes qui sont tous les deux liés au résumé vidéo. Dans le premier axe de recherche, nous nous intéressons principalement à la recherche d’objets génériques en utilisant une description locale à base de points d’intérêts. Cet axe concerne principalement des applications comme la recherche par le contenu dans une base de vidéos ou le e-commerce. Après avoir extrait les points d’intérêts, ils seront en second lieu décrits par des descripteurs calculés dans le voisinage de ceux ci. Après, vient une étape de mise en correspondance par description locale en ajoutant des invariants géométriques. Les différentes contraintes qu’il faut prendre en considération lors du processus d’extraction de caractéristiques locales et la mise en correspondance sont essentiellement liées avec le mouvement de la caméra. C’est pour cette raison que les primitives détectées doivent fournir une robustesse aux différentes transformations de l’image (rotations, changements d’échelle, de point de vue, de luminosité, ... etc) pour obtenir des images représentatives de la vidéo. Notre deuxième axe de recherche porte sur la construction de résumés vidéos dans l’objectif de la reconnaissance faciale. Cet axe peut concerner des applications comme la vidéo-surveillance ou la gestion des archives des chaînes de télévisions. Le visage n’étant pas un objet générique. Les descripteurs globaux ou les descripteurs locaux comme les points d’intérêts sont mal adaptés dans ce cas. les contraintes de son extraction dans les meilleures conditions sont plusieurs. Nous avons alors besoin d’utiliser des descripteurs spécifiques pour bien localiser, décrire et reconnaître le visage. En effet, l’extraction de visages à partir de vidéos dans des milieux encombrés reste un domaine de recherche très compétitif. L’extraction des images clés de visage, sert à définir pour chaque vidéo, l’ensemble des identités qui apparaissent. Cet ensemble devrait être formé des meilleures images de visages. C’est-à-dire, les images frontales, neutres en émotions, de bonne résolution et une quantité de lumière suffisante. Mots clés : Recherche de vidéos par le contenu, extraction des images clés, points d’intérêts, reconnaissance faciale, apprentissage profond

Contributions to the building of video summaries: application to generic object search and facial recognition

Contributions à la construction de résumés Vidéos : application à la recherche d’objets génériques et à la reconnaissance faciale

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager