Skip to Main content Skip to Navigation
Habilitation à diriger des recherches

Outils et méthodes pour le codage vidéo perceptuel

Vincent Ricordel 1, 2
Résumé : On ne peut que constater combien la technologie vidéo est devenue omniprésente en un peu plus d’une décennie. Si les besoins des nouveaux services vidéo ont été en partie satisfaits par l’efficacité des réseaux et de leurs technologies de couche physique, en parallèle les codecs vidéo ont été primordiaux en offrant compression et nouvelles fonctionnalités. La recherche en codage vidéo se caractérise alors par un fort contexte normatif où le point de compatibilité se fait au niveau du décodage. Les performances de chaque nouveau standard sont remarquables, car typiquement chacun par rapport au précédent, code avec la même qualité objective un format vidéo donné mais en divisant par deux le débit nécessaire. Il est cependant frappant de constater que le paradigme de la couche de codage n’a pas changé depuis l’origine, avec un codec dissymétrique où les décisions sont prises à l’encodage via un schéma hybride intégrant les étapes de prédiction, transformation, quantification et codage entropique. Il est aussi surprenant de constater la persistance de l’implantation dans les codeurs pour la phase d’optimisation débit-distorsion, d’un calcul de distorsion de type erreur quadratique moyenne, alors que l’on sait la corrélation pauvre entre les résultats de cette métrique et le jugement humain. C’est à ce niveau que se définit l’objectif du codage vidéo perceptuel qui est d’aller vers une représentation de l'information basée sur le contenu perçu et qui puisse servir de paradigme pour un codage basé qualité perceptuelle des contenus des vidéos 2D et 3D. Pour être en phase avec les approches standards, l’objectif devient de guider les choix de codage de façon à aller vers la fidélité perceptuelle sans perte des vidéos décodées. Mes travaux se positionnent donc dans cette recherche des outils et des méthodes où les choix pour améliorer la qualité perceptuelle guident le codage vidéo. Mon mémoire retrace mon itinéraire scientifique au sein des équipes IVC IRCCyN puis IPI LS2N qui, du fait des recherche qui y sont conduites sur la modélisation du système visuel humain, ont offert et offrent encore un cadre collaboratif particulièrement propice aux travaux liés au codage vidéo perceptuel. Mes contributions au codage vidéo perceptuel se sont principalement organisées au sein de projets de recherche visant à contribuer aux efforts faits en normalisation, avec le projet ANR ArchiPEG qui avait pour objectif l'optimisation du codage vidéo HD en flux H.264/AVC, le projet ANR PERSEE qui s'intéressait au codage perceptuel des formats vidéo 2D et 3D via le codec H.264 et son extension MVC, et le projet européen ITN PROVISION qui visait le codage perceptuel via HEVC. Mes contributions ont été produites au travers l’encadrement de masters et de thèses (4 soutenues, 1 en cours), et nous verrons que nous avons agi à 2 niveaux de la boucle de codage vidéo hybride. Une première possibilité est d’améliorer directement des unités de la boucle de codage. C’est ainsi que nous avons mis en œuvre une transformation directionnelle tenant compte des orientations géométriques au sein de l’image. Nous avons exploité cette représentation de l’information afin de construire des classes de structures, puis adapté la quantification de leur contenu en se basant sur des critères perceptuels. Nous avons aussi, après avoir défini la notion de textures spatio-temporelles visuelles, proposé un modèle mesurant la similarité entre ces textures visuelles. Ce modèle computationnel basé sur le traitement cortical du SVH, a ensuite été utilisé afin d’améliorer la boucle de codage de HEVC : en identifiant des classes de textures visuelles et en faisant correspondre à la distorsion objective standard calculée par le codeur sa valeur dans le domaine perceptuel. Une autre approche consiste à mettre en place un schéma de pré-analyse avant encodage afin de piloter ensuite efficacement le codage des régions d’intérêt. La modélisation de l’attention visuelle est donc essentielle au niveau de cette analyse. Nous avons conçu un schéma de pré-analyse basé sur des tubes spatio-temporels. Cet outil réalise la segmentation et le suivi des objets constitués de tubes connexes, et il leur associe une saillance visuelle. L’ensemble de ces informations est exploitée afin d’assurer un codage cohérent des objets en flux H.264/AVC. Exactement nous avons testé l’adaptation de la structure du GOP, et le guidage de la qualité visuelle. Nous avons aussi développé le premier modèle computationnel de l’attention visuelle 3D s’appliquant à la visualisation d’images stéréoscopiques. Ce modèle combine deux cartes de saillance visuelle : celle 2D et celle de profondeur. Nous avons utilisé ce modèle afin d’améliorer la qualité d’expérience de visualisation de la TV3D, par ajout d’un flou de défocalisation sur la région ayant moins d’intérêt. Dans la dernière partie de mon mémoire, un bilan et des perspectives sont donnés. Nous nous intéressons en particulier au codage des formats vidéo immersifs représentés par des nuages de points 3D. Nos derniers travaux montrent l’intérêt d’une approche basée quantification vectorielle algébrique et arborescente, permettant de structurer graduellement la géométrie de la scène, et cela en fonction d’un critère débit-distorsion.
Document type :
Habilitation à diriger des recherches
Complete list of metadata

Cited literature [669 references]  Display  Hide  Download

https://tel.archives-ouvertes.fr/tel-02461613
Contributor : Vincent Ricordel Connect in order to contact the contributor
Submitted on : Thursday, January 30, 2020 - 5:42:26 PM
Last modification on : Wednesday, October 13, 2021 - 3:52:06 PM

Identifiers

  • HAL Id : tel-02461613, version 1

Citation

Vincent Ricordel. Outils et méthodes pour le codage vidéo perceptuel. Traitement du signal et de l'image [eess.SP]. Université de Nantes, 2020. ⟨tel-02461613⟩

Share

Metrics

Record views

342

Files downloads

395