Object detection and traffic prediction using Deep Learning on compressed road images and videos

Benjamin Deguerre

Résumé

The PhD thesis is a CIFRE carried out with Actemium Paris Transport, a company that operates in the field of lntelligent Transport Systems (ITS) and, in particular, provides solutions for the surveillance of road tunnels. In the thesis, we address the learning of efficient deep learning models that directly process compressed images/videos to lower the computation resource requirements and to allow for large scale deployment of the solutions. More specifically, we target two types of compression, JPEG image compression and MPEG4 part-2 video compression, for two specific applications: object detection and traffic flow rate estimation. The first contribution focuses on object detection in JPEG compressed images. As the JPEG algorithm compresses the images from a spatial representation into a tiled frequency space, the main challenge is to design detection models able to correctly estimate the position of objects based on the frequency representation. Using JPEG compressed images as inputs, we investigate deep learning architectures for object detection and demonstrate a x 1.7 speed up at detection time, while only reducing the detection performance by 5.5%. Moreover, we empirically demonstrate that only part of the compressed information, namely the luminance component, is required to match the accuracy of the full input methods. Our second contribution addresses the problem of estimating the flow rate (number of vehicles/unit of time) from MPEG4 part-2 compressed video streams issued from road surveillance cameras. The MPEG4 part-2 compression algorithm uses a coarse representation of the pixel flow across frames to reduce the size of the videos to be encoded. Therefore, the approximate flow representation appears relevant to estimate the flow rate, while reducing the computation and memory requirements. We propose multiple end-to-end deep learning architectures using this coarse pixel flow representation as input. Using these models, we demonstrate that predicting the flow rate directly from MPEG4 part-2 compressed video streams can be achieved, while reaching improved accuracy in comparison with a more classical RGB-based model. We also show an impressive speed up of x3200. Furthermore, as training data may be scarce due to practical constraints, we explore domain adaptation to transfer learned models from one camera to another and provide with a thorough analysis of the constraints that may impede such transfer.

Cette thèse est une CIFRE réalisée avec Actemium Paris Transport, une société qui évolue dans le domaine des Systèmes de Transport Intelligents (STI) et, en particulier, fournit des solutions logicielles pour la surveillance des tunnels routiers. Dans cette thèse, nous nous proposons d’étudier l’utilisation de méthodes d’apprentissage profond sur des images/vidéos compressées, afin de réduire leurs besoins en ressources et de permettre un déploiement à grande échelle des solutions logicielles développées par Actemium. Plus spécifiquement, nous ciblons deux types de compressions (la compression d’images JPEG et la compression vidéo MPEG4 part-2) pour deux applications spécifiques : la détection d’objets et l’estimation du débit de flux routiers. Dans un premier temps, nous nous concentrons sur la détection d’objets dans les images compressées JPEG. Du fait que l’algorithme JPEG compresse les images depuis une représentation spatiale en une représentation fréquentielle par blocs, le principal défi consiste à concevoir des modèles de détection capables d’estimer correctement la position des objets depuis cette nouvelle représentation. En utilisant des images compressées au format JPEG comme entrées, nous développons des architectures d’apprentissage profond de détection d’objets et démontrons une accélération de la vitesse de prédiction d’un facteur 1,7 tout en ne réduisant la performance de détection que de 5,5%. De plus, nous démontrons empiriquement que seule une partie des informations compressées, la composante de luminance, est nécessaire pour atteindre la précision des méthodes utilisant l’ensemble des informations contenues dans les images. Nous abordons ensuite le problème de l’estimation du débit routier (nombre de véhicules/unité de temps) à partir de flux vidéo compressés MPEG4 part-2 provenant de caméras de surveillance de tunnels routiers. L’algorithme de compression vidéo MPEG4 part-2 utilise une représentation approximative du flux de pixels entre les images pour réduire la taille des données à encoder. Cette représentation semble donc pertinente pour estimer le débit de flux routiers tout en réduisant les besoins en ressources de calcul et en mémoire. Nous proposons plusieurs architectures d’apprentissage profond de type end-to-end qui utilisent cette représentation comme entrée. En utilisant ces architectures, nous démontrons que la prédiction du débit routier à partir de flux vidéo compressés MPEG4 part-2 est possible tout en atteignant une meilleure précision par rapport à un modèle plus classique, basé sur les vidéos RGB, et permet, de plus, d’accélérer de façon impressionnante l’étape de prédiction (×3200). Enfin, les données d’entraînement pouvant être difficiles à obtenir en raison de contraintes industrielles, nous étudions la possibilité d’utiliser des méthodes d’adaptation de domaine pour transférer les modèles appris d’une caméra à une autre et nous fournissons une analyse approfondie des contraintes qui peuvent entraver un tel transfert.

Object detection and traffic prediction using Deep Learning on compressed road images and videos

Détection d’objets et prédiction du trafic routier à l’aide de l’apprentissage profond sur des images et des vidéos compressées de scènes routières

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager