Les tubes de mouvement : nouvelle représentation pour les séquences d'images

Matthieu Urvoy

Abstract

Within a few years only, the amount of video information transmitted across a large range of communication channels has been critically increasing. It is expected, by 2014, that IP traffic will consist, most exclusively, of video data. In mobiles, video traffic is expected to undergo an increase without precedent as well. Despite the ever-increasing throughput of modern transmission channels, these will not be able to sustain such an increase in payload. More than ever, it is essential to improve our ability to compact the video information. Research, for the past 30 years, provided numerous decorrelation tools that reduce the amount of redundancies across both spatial and temporal dimensions in image sequences. To this day, the classical video compression paradigm locally splits the images into blocks of pixels (macroblocks), and processes the temporal axis on a frame by frame basis, without any obvious continuity. Despite very high compression performances (e.g. AVC and forthcoming HEVC standards), one may still advocate the use of alternative approaches. Disruptive solutions have also been proposed, and notably offer the ability to continuously process the temporal axis. However, they often rely on complex tools (e.g. Wavelets, control grids) whose use is rather delicate in practice. This thesis investigates the viability of an alternative representation that embeds features of both classical and disruptive approaches. Its goal is to exhibit the temporal persistence of the textural information, through a time-continuous description. However, it still relies on blocks, mostly responsible for the popularity of the classical approach. Instead of re-initializing the description at each frame, it is proposed to track the evolution of initial blocks taken from a reference image. A block, and its trajectory across time and space, is called a motiontube. An image sequence is then interpreted as a set of motiontubes. Three major problems have been considered within this thesis. At first, motiontubes need to track both continuous and discontinuous displacements and deformations of individual patches of textures. Above all, it is critical for them to evolve as consistently as possible, which will require dedicated regularization mechanisms. Then, a second problem lies in the texture itself and the way it is used to synthesize images: how to handle non-registered and multi-registered areas. Finally, it is essential for a motiontube to be terminated whenever the corresponding patch of texture disappears or cannot be properly tracked any longer, which raises the problem of quality and efficiency assessment. This has a critical influence on the compactness of the representation. Results will eventually show that tubes can effectively be used to represent image sequences, and compare their performances with those of \AVC standard.

En quelques années, le trafic vidéo a augmenté de manière spectaculaire sur de nombreux médias. D'ici 2014, on estime que la quasi-intégralité du trafic IP sera composée de données vidéo. De même, l'usage de la vidéo sur les téléphones mobiles aura subi une augmentation sans précédent. Or, on estime que les infrastructures réseau, malgré les progrès constants en matière de transmission, ne pourront pas supporter une telle charge. A ce titre, il est plus que jamais capital d'améliorer nos capacités à compresser les vidéos. Depuis 30 ans, la recherche travaille à l'élaboration de techniques de décorrélation, notamment afin de réduire les redondances spatiales et temporelles des séquences d'images et les compresser. A ce jour, l'approche classique est basée sur le concept de macroblocs : le contenu spatial est divisé en un ensemble de blocs. Le long de l'axe temporel, les images sont traitées une à une, sans faire apparaître de continuité évidente. Bien que cette approche soit déjà très efficace (cf. standards AVC et futur HEVC), l'emploi d'approches en rupture reste toujours envisageable. Celles-ci offrent, entre autre, la possibilité de décrire l'évolution temporelle du contenu de manière continue. Cependant, elles mettent souvent en oeuvre des outils dont l'utilisation, en pratique, est délicate. Ce travail de thèse propose une nouvelle représentation, qui combine les avantages de l'approche classique et ceux de certaines approches en rupture, puis en étudie la viabilité. On cherche à exhiber la persistance temporelle des textures, à travers une description continue le long de l'axe temporel. A l'instar de l'approche classique, la représentation proposée est basée sur des blocs. Au lieu de réinitialiser la description à chaque image, notre représentation suit l'évolution de blocs initialement repérés à un instant de référence. Ces blocs, ainsi que leur trajectoire spatio-temporelle, sont appelés tubes de mouvement. Trois problématiques sont soulevées. Tout d'abord, les tubes doivent être capable de représenter continuités et discontinuités du mouvement, ainsi que de suivre les déplacements et les déformations de patchs de texture. Des mécanismes de régularisation sont également mis en place, et s'assurent que l'évolution des tubes se fait de manière cohérente. Ensuite, la représentation doit gérer les recouvrements et les découvrements de tubes, et donc la manière dont la texture doit être synthétisée. Enfin, la problématique de vie et de mort des tubes}est probablement la plus délicate: comment détecter la disparition ou l'impossibilité de suivre un patch de texture ? Le cas échéant, le tube correspondant devra être arrêté, ceci afin de garantir une représentation aussi compacte que possible. Les résultats montreront que notre représentation est viable, et ses performances seront comparées à celles du standard AVC.

Motion tubes: a new representation for image sequences

Les tubes de mouvement : nouvelle représentation pour les séquences d'images

Abstract

Keywords

Domains

Dates and versions

Identifiers

Cite

Export

Share