CODAGE DES DONNÉES VISUELLES : EFFICACITÉ, ROBUSTESSE, TRANSMISSION

Marco Cagnazzo

Résumé

Après l'obtention de mon doctorat (2005), mes travaux ont porté initialement sur deux des axes de recherche de la thèse, notamment sur le codage vidéo scalable et sur le codage d'images par ondelettes adaptées à la forme (OAF). J'ai en particulier étudié la mise en place d'un codeur vidéo scalable basé sur la transformée en ondelettes par schémas lifting compensés en mouvement et allocation optimale des ressources de codage. En suite j'ai abordé le problème du critère optimal pour l'estimation de mouvement pour ce type de codeur : des meilleures performances débit-distorsion peuvent être atteintes au prix d'une augmentation de la complexité de l'estimation de mouvement. Par rapport au codage d'images par OAF, j'ai travaillé sur les conditions qui permettent à cette approche d'être compétitif avec les méthodes traditionnelles, et ensuite sur l'utilisation conjointe de la transformée en OAF avec la quantification vectorielle arborescente et avec la transformée de Karhunen-Loéve par classes pour la compression d'images multi-spectrales. J'ai aussi considéré la relation entre distorsion sur les coefficients et distorsion perceptuelle ou non-perceptuelle sur l'image résultante. Ensuite j'ai travaillé sur l'amélioration d'un codeur vidéo standard par une représentation efficace du mouvement : un premier travail, visant une très bonne précision, a abouti à une nouvelle méthode de codage sans pertes basée sur l'information mutuelle ; une deuxième approche utilise la quantification des vecteurs de mouvement, permettant de réduire le débit pour la même qualité. J'ai ensuite travaillé sur le codage vidéo distribué (CVD). Dans le contexte du CVD, la corrélation entre deux images consécutives (ou entre deux vues voisines dans le cas de vidéo multi-vues) est exploité uniquement au décodeur, tandis que les deux images sont codées séparément. Il est alors fondamental que le décodeur soit capable de construire une bonne estimation de l'image manquante : dans ce cas le codeur devra envoyer seulement quelques bits de parité d'un code à correction d'erreurs pour améliorer l'estimation jusqu'à avoir une qualité acceptable. Dans ce cadre, mes travaux ont visé surtout à améliorer l'estimation de l'image manquante, par une description précise du mouvement : un premier axe est basé sur la représentation dense des champs de vecteurs de mouvement ; un deuxième sur la modélisation des trajectoires des objets ; les méthodes basées sur les hash, de raffinement successif et de fusion du mouvement global avec le mouvement local ont également donné des bons résultats. Ces techniques d'estimation peuvent être utilisées dans le cadre du codage par descriptions multiples : les images paires et impaires d'une séquence vidéo sont codées dans deux flux séparés avec un codeur standard, et le décodeur peut reproduire le taux original d'images par seconde même s'il reçoit un seul flux : les techniques de CVD permettent de reconstruire l'image manquante. Le CVD permet également de gérer efficacement le compromis entre degré d'interactivité, occupation d'espace de stockage et besoins de bande passante lors du streaming interactif de vidéos multi-vues. Le CVD de la vidéo 3D comporte des problématiques liées au codage des cartes de profondeur à la détection et la gestion des occlusions, et à la fusion des estimations temporelles et inter-vues. Finalement je me suis aussi occupé de la relation entre qualité de l'estimation de l'image manquante et le débit de codage total associé. Même en dehors du cadre du CVD, la compression vidéo 3D, ou plus précisément, de la vidéo multi-vues (VMV) et de la vidéo multi-vues avec profondeur (MVP) est également un domaine majeur de mon activité de recherche. Je me suis intéressé aux méthodes d'estimation dense de disparité, au codage de cartes de profondeur et au codage par Don't Care Regions (DCR) c'est à dire, en considérant les erreurs sur l'image synthétisé avec la carte de profondeur plutôt que la carte de profondeur elle-même. Le dernier domaine de recherche concerne la distribution de la vidéo sur réseau. Dans le cas de réseau filaire, j'ai travaillé sur une approche network-aware pour la distribution coopérative de vidéo. Dans le cas de réseau sans fils, je me suis intéressé à un protocole cross-layer qui minimise le nombre de message échangé, tout en garantissant à tous les nœuds la réception de la vidéo. Ce protocole a ensuite été amélioré pour prendre en compte les compromis entre distorsion et congestion sur le réseau. Ce protocole peut être utilisé conjointement au codage réseau pour maximiser le throughput du réseau et pour améliorer la robustesse de la communication. Les techniques de codage réseau peuvent également être utilisées avec le codage à descriptions multiples pour ultérieurement améliorer la robustesse, et avec le codage de la vidéo multi-vues pour optimiser (en sens débit-distorsion) la planification d'envoi des paquets vidéo.

CODAGE DES DONNÉES VISUELLES : EFFICACITÉ, ROBUSTESSE, TRANSMISSION

VISUAL DATA CODING : EFFICIENCY, ROBUSTNESS, TRANSMISSION

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager