Deep Learning End-to-end Person Search and Multiple Pedestrian Tracking - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2021

Deep Learning End-to-end Person Search and Multiple Pedestrian Tracking

Apprentissage profond de bout-en-bout pour la ré-identification et le suivi de personnes

Ronghua Hu
  • Fonction : Auteur
  • PersonId : 1173438
  • IdRef : 262388448

Résumé

Multi-object tracking consists of fully automated processing of image and video sequences for locating objects of interest and estimating their Spatio-temporal motion trajectories. Thanks to the rapid development of deep learning technologies, multi-object tracking and detection are used in the field of safety and security. Due to the complex appearance changes of pedestrians, non-linear motion, and mutual occlusion in crowded and mobile scenes, multiple object tracking remain extremely complex and challenging. A complete and robust tracking system consists of a detector for semantic detection, a re-identification network for pedestrians' appearance embedding representation, and an association module for trajectory maintenance and updating. In this thesis, we aim to integrate these modules using deep learning technologies for multiple object tracking by: (i) proposing of a person search network, named FT-MDnet, to extract re-identification features from multiple types of mainstream detection networks that aims at the detection, localization, and matching of pedestrians on cross-camera image galleries, (ii) proposing of a scene adaptive data association module to convert re-identification features into association features for making association decisions without the constraint of bounding boxes, and (iii) proposing of a scene adaptive detection module online feeding back the tracking result to the detection network to enhance the detection of weak and small targets.
Le suivi d'objets consiste à traiter de manière entièrement automatisée des séquences d'images et de vidéos pour la localisation objets d'intérêt et d’estimation de leurs trajectoires spatio-temporelles. En raison du changement d'apparence des personnes, de leurs mouvements non linéaires et de leurs occlusions mutuelles dans des scènes de foule, le suivi reste extrêmement complexe. Un système de suivi complet et robuste se compose d'un détecteur pour la détection sémantique, d'un réseau de ré-identification pour la représentation de l'apparence des piétons, et d'un module d'association pour la maintenance et la mise à jour des trajectoires. Dans cette thèse, on vise à intégrer les modules de détection en utilisant des technologies d'apprentissage profond pour la recherche et le suivi des piétons en mouvement par : (i) l'extraction automatique des caractéristiques d'apparence des personnes, (ii) la transformation adaptative des caractéristiques de ré-identification en caractéristiques d'association afin de prendre des décisions d'association sans la contrainte des boîtes englobantes, et (iii) la remontée en ligne des résultats de suivi vers le réseau de détection pour améliorer la détection des cibles moins résolues.
Fichier principal
Vignette du fichier
Ronghua_Hu_2021TROY0018.pdf (20.76 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03810645 , version 1 (11-10-2022)

Identifiants

  • HAL Id : tel-03810645 , version 1

Citer

Ronghua Hu. Deep Learning End-to-end Person Search and Multiple Pedestrian Tracking. Computer Vision and Pattern Recognition [cs.CV]. Université de Technologie de Troyes, 2021. English. ⟨NNT : 2021TROY0018⟩. ⟨tel-03810645⟩
83 Consultations
24 Téléchargements

Partager

Gmail Facebook X LinkedIn More