Multi-modal, multi-domain pedestrian detection and classification : proposals and explorations in visible over StereoVision, FIR and SWIR - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2014

Multi-modal, multi-domain pedestrian detection and classification : proposals and explorations in visible over StereoVision, FIR and SWIR

Détection et classification de piétons multi-modale, multi-domaine : propositions et explorations dans visible sur stéréo vision, infrarouge lointain et infrarouge à ondes courtes

Résumé

The main purpose of constructing Intelligent Vehicles is to increase the safety for all traffic participants. The detection of pedestrians, as one of the most vulnerable category of road users, is paramount for any Advance Driver Assistance System (ADAS). Although this topic has been studied for almost fifty years, a perfect solution does not exist yet. This thesis focuses on several aspects regarding pedestrian classification and detection, and has the objective of exploring and comparing multiple light spectrums (Visible, ShortWave Infrared, Far Infrared) and modalities (Intensity, Depth by Stereo Vision, Motion).From the variety of images, the Far Infrared cameras (FIR), capable of measuring the temperature of the scene, are particular interesting for detecting pedestrians. These will usually have higher temperature than the surroundings. Due to the lack of suitable public datasets containing Thermal images, we have acquired and annotated a database, that we will name RIFIR, containing both Visible and Far-Infrared Images. This dataset has allowed us to compare the performance of different state of the art features in the two domains. Moreover, we have proposed a new feature adapted for FIR images, called Intensity Self Similarity (ISS). The ISS representation is based on the relative intensity similarity between different sub-blocks within a pedestrian region of interest. The experiments performed on different image sequences have showed that, in general, FIR spectrum has a better performance than the Visible domain. Nevertheless, the fusion of the two domains provides the best results. The second domain that we have studied is the Short Wave Infrared (SWIR), a light spectrum that was never used before for the task of pedestrian classification and detection. Unlike FIRcameras, SWIR cameras can image through the windshield, and thus be mounted in the vehicle’s cabin. In addition, SWIR imagers can have the ability to see clear at long distances, making it suitable for vehicle applications. We have acquired and annotated a database, that we will name RISWIR, containing both Visible and SWIR images. This dataset has allowed us to compare the performance of different pedestrian classification algorithms, along with a comparison between Visible and SWIR. Our tests have showed that SWIR might be promising for ADAS applications,performing better than the Visible domain on the considered dataset. Even if FIR and SWIR have provided promising results, Visible domain is still widely used due to the low cost of the cameras. The classical monocular imagers used for object detectionand classification can lead to a computational time well beyond real-time. Stereo Vision providesa way of reducing the hypothesis search space through the use of depth information contained in the disparity map. Therefore, a robust disparity map is essential in order to have good hypothesis over the location of pedestrians. In this context, in order to compute the disparity map, we haveproposed different cost functions robust to radiometric distortions. Moreover, we have showed that some simple post-processing techniques can have a great impact over the quality of the obtained depth images.The use of the disparity map is not strictly limited to the generation of hypothesis, and couldbe used for some feature computation by providing complementary information to color images.We have studied and compared the performance of features computed from different modalities(Intensity, Depth and Flow) and in two domains (Visible and FIR). The results have showed that the most robust systems are the ones that take into consideration all three modalities, especially when dealing with occlusions.
L’intérêt principal des systèmes d’aide à la conduite (ADAS) est d’accroître la sécurité de tous les usagers de la route. Le domaine du véhicule intelligent porte une attention particulière au piéton,l’une des catégories la plus vulnérable. Bien que ce sujet ait été étudié pendant près de cinquante ans par des chercheurs, une solution parfaite n’existe pas encore. Nous avons exploré dans ce travail de thèse différents aspects de la détection et la classification du piéton. Plusieurs domaines du spectre (Visible, Infrarouge proche, Infrarouge lointain et stéréovision) ont été explorés et comparés.Parmi la multitude des systèmes imageurs existants, les capteurs infrarouge lointain (FIR),capables de capturer la température des différents objets, reste particulièrement intéressants pour la détection de piétons. Les piétons ont, le plus souvent, une température plus élevée que les autres objets. En raison du manque d’accessibilité publique aux bases de données d’images thermiques, nous avons acquis et annoté une base de donnée, nommé RIFIR, contenant à la fois des images dans le visible et dans l’infrarouge lointain. Cette base nous a permis de comparer les performances de plusieurs attributs présentés dans l’état de l’art dans les deux domaines.Nous avons proposé une méthode générant de nouvelles caractéristiques adaptées aux images FIR appelées « Intensity Self Similarity (ISS) ». Cette nouvelle représentation est basée sur la similarité relative des intensités entre différents sous-blocks dans la région d’intérêt contenant le piéton.Appliquée sur différentes bases de données, cette méthode a montré que, d’une manière générale,le spectre infrarouge donne de meilleures performances que le domaine du visible. Néanmoins, la fusion des deux domaines semble beaucoup plus intéressante.La deuxième modalité d’image à laquelle nous nous sommes intéressé est l’infrarouge très proche (SWIR, Short Wave InfraRed). Contrairement aux caméras FIR, les caméras SWIR sont capables de recevoir le signal même à travers le pare-brise d’un véhicule. Ce qui permet de les embarquer dans l’habitacle du véhicule. De plus, les imageurs SWIR ont la capacité de capturer une scène même à distance lointaine. Ce qui les rend plus appropriées aux applications liées au véhicule intelligent. Dans le cadre de cette thèse, nous avons acquis et annoté une base de données, nommé RISWIR, contenant des images dans le visible et dans le SWIR. Cette base a permis une comparaison entre différents algorithmes de détection et de classification de piétons et entre le visible et le SWIR. Nos expérimentations ont montré que les systèmes SWIR sont prometteurs pour les ADAS. Les performances de ces systèmes semblent meilleures que celles du domaine du visible.Malgré les performances des domaines FIR et SWIR, le domaine du visible reste le plus utilisé grâce à son bas coût. Les systèmes imageurs monoculaires classiques ont des difficultés à produire une détection et classification de piétons en temps réel. Pour cela, nous avons l’information profondeur (carte de disparité) obtenue par stéréovision afin de réduire l’espace d’hypothèses dans l’étape de classification. Par conséquent, une carte de disparité relativement correcte est indispensable pour mieux localiser le piéton. Dans ce contexte, une multitude de fonctions coût ont été proposées, robustes aux distorsions radiométriques, pour le calcul de la carte de disparité.La qualité de la carte de disparité, importante pour l’étape de classification, a été affinée par un post traitement approprié aux scènes routières.Les performances de différentes caractéristiques calculées pour différentes modalités (Intensité,profondeur, flot optique) et domaines (Visible et FIR) ont été étudiées. Les résultats ont montré que les systèmes les plus robustes sont ceux qui prennent en considération les trois modalités,plus particulièrement aux occultations.
Scopul principal al construt, iei vehiculelor inteligente este de a cres, te nivelul de sigurant,ă pentrutot, i participant, ii la trafic. Detect, ia pietoniilor, fiind una dintre categoriile cele mai vulnerabile întrafic, este de o important,ă majoră pentru orice Sistem de Asistent,ă Avansată la Conducere (en:Advance Driver Assistance System - ADAS). Des, i acest domeniu a fost studiat de aproape cincizecide ani, nu există încă o solut, ie perfectă. Această lucrare se concentreză pe diverse aspecte legatede detect, ia s, i clasificarea pietonilor, s, i are ca obiectiv explorarea si compararea diverselor domenii(Vizibil, Infraros,u de Lungime Scurtă, Infraros,u de Lungime Lungă) s,i modalităt, i (Intensitate,Disparitate, Flux Optic).Din divesele tipuri de senzori, spectrul Infraros,u de lungime de unde lungă (en: FIR), capabilde a detecta temperatura diverselor obiecte, este deosebit de interesant pentru detectarea pietonilor.Aces, tia din urmă, vor avea de regulă o temperatură mai ridicată decât mediul înconjurător. Dinlipsa unor baze de date adecvate cu imagini rutiere FIR, am achizit,ionat s, i adnotat o bază dedate cu imagini din acest spectru de lumină, pe care o vom numi RIFIR, cont,inând imagini atâtîn spectrul Visibil cât s, i FIR. Aceste imagini ne-au permis să comparăm performant,a diverselorcaracteristici calculate pe imagini în cele două domenii. In contextul imaginilor termice, ampropus o nouă caracteristică adaptată pentru imaginile FIR, numită Intensity Self Similarity(ISS). Reprezentarea ISS este bazată pe calculul unor similarităt, i de intensitate între sub-blocuridin interiorul unei regiuni de interes. Experimentele realizate pe diverse baze de imagini au arătatcă în general, spectrul FIR are o performant,ă mai bună decât domeniul Vizibil. Cu toate acestea,fuziunea celor două spectre de lumină a dat performant, ele cele mai bune.După analiza domeniului FIR, am studiat un alt spectru Infraros,u, care nu a fost folosit pânăacum pentru detect, ia s, i clasificarea pietonilor, Infraros,u de Lungime Scurtă (Short Wave Infrared- SWIR). Spre deosebire de camerele FIR, cele SWIR au abilitatea de a vedea prin parbriz, prinurmare pot fi montate în interiorul vehiculului. În plus, camerele SWIR au posibilitatea de avedea clar pe distant,e lungi, ceea ce le face convenabile pentru aplicat, ii ADAS. Am achizit,ionats, i adnotat o nouă bază de imagini, pe care o vom numi RISWIR, cont,inând imagini atât dinVizibil cât s, i din SWIR. Testele realizate au arătat rezultate promit,ătoare pentru spectrul SWIRfolosit în aplicat, ii de tip ADAS, având rezultate mai bune decât spectrul Visibil pe imaginileconsiderate.Chiar dacă FIR s, i SWIR au dat rezultate favorabile, spectrul Visibil este încă domeniul cellarg utilizat, în special din cauza costului scăzut al echipamentelor. Clasicele imagini monocularefolosite pentru detect,ia s, i clasificarea de obiecte pot să dea un timp de procesare foarte lung.Stereo-Viziunea oferă o modalitate de a reduce spat, iul de căutare al ipotezelor prin folosireainformat, iei privind distant,a până la obiecte, dată de harta de disparitate. Prin urmare, o hartă dedisparitate robustă este esent, ială pentru a avea ipoteze relevante cu privire la locat, ia pietonilor.În acest context, pentru calculul hart, ii de disparitate am propus câteva funct, ii de cost robustela distorsiuni radiometrice. În plus, am arătat că technici simple de post-procesare pot avea unimpact semnificativ asupra calităt, ii hărt, ii de disparitate.Folosirea hărt, ii de disparitate nu este strict limitată la generarea de ipoteze, ci poate să fieutilizată s, i pentru calcularea unor caracteristici, funizând informat, ii complementare imaginilorcolor. În acest context, am studiat s, i comparat performant,a caracteristicilor calculate pe diversemodalităt, i (Intensitate, Disparitate s, i Fluxul Optic) în diverse domenii (Visibil s, i FIR) [...]
Fichier principal
Vignette du fichier
ManuscrisAlinaMiron-Finalv2.pdf (10.28 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)
Loading...

Dates et versions

tel-01066638 , version 1 (22-09-2014)

Identifiants

  • HAL Id : tel-01066638 , version 1

Citer

Alina Dana Miron. Multi-modal, multi-domain pedestrian detection and classification : proposals and explorations in visible over StereoVision, FIR and SWIR. Computer Science [cs]. INSA de Rouen; Universitatea Babeș-Bolyai (Cluj-Napoca, Roumanie), 2014. English. ⟨NNT : 2014ISAM0007⟩. ⟨tel-01066638⟩
509 Consultations
838 Téléchargements

Partager

Gmail Facebook X LinkedIn More