Motion forecasting of the objects in road scenes

Jean Mercat

Résumé

The automotive industry is moving toward intelligent systems. The aim for more safety, comfort, or even full self-driving systems requires the vehicles to take actions instead of the driver. It may use light signals, brake, accelerate, turn, and shift gears. Performing safely such actions requires a decision-making process that anticipates the resulting situation. This is broken down into three "p" steps: perception, prediction, and planning. The perception system recognizes the current surrounding road-scene situation. The prediction system forecasts the future of the road-scene including the other road users. The planning system produces a driving intention.If the future was perfectly known, planning would be straight forward. However, the perception system makes partial and noisy observations. The future cannot be perfectly predicted because of the uncertainties in the observation and because the human driver's decisions are modeled imperfectly. Therefore, improving the motion forecasting model that can work with a noisy observation system in complex situations is a critical point for safety, comfort, and future applications toward autonomous vehicles.Motion forecasting can be modeled from various perspectives. The three main ones are kinematics and heuristics, statistics, and decision process. The kinematics and heuristics are the historical approaches that offer efficiency and robustness. Most vehicles using short-term forecasting systems on the road nowadays rely on such forecasting models. However, it leads to an overly conservative behavior when used in complex situations. The approach using decision processes shows good performance in complex scenarios. It is able to perform well in simulations and controlled environments. It combines forecasting and planning into a single task and may account for the reactions of the other drivers in the decisions it plans to take. However, in a noisy and wider, uncontrolled environment, statistical approaches still produce the best performances.In this work, we use neural networks to learn the statistics of the vehicle trajectories. We progressively build a motion forecasting model from a constant velocity baseline to a complex interaction-aware neural network model. The evaluation criteria that we establish are used to judge the quality of the forecast and to compare the models. The likelihood of future observation for the forecasted distribution is the main criterion that is commonly used in the applications. However, there is no universal forecasting quality criterion and it remains an open problem.We begin our tests with vanilla neural networks for maximum likelihood motion forecasting. These models are then modified to also learn to fit the expected forecasting error. They optimize the NLL. It is a likelihood criterion for a given dataset of trajectories. This does not lead to much improvement over the constant velocity model. We go on to add interaction awareness to the model using multi-head attention. This brings much improvement to the forecasts but it is still insufficient. We improve the model further by considering different future possibilities. Finally, the multi-head attention model is extended to also attend to the surrounding lane shapes. The resulting neural network counts several blocks that account for different aspects of the task. Experiments show that each part of the model is useful. We show that the trained model has learned specialized attention patterns and is able to make multi-modal forecasts. Our results were the winning entry at the two first Argoverse forecasting competition.

L'industrie automobile se pare de systèmes intelligents. Les objectifs de sécurité, de confort, et même de systèmes autonomes demandent que le véhicule s'actionne de lui-même à la place du conducteur. Le système peut enclencher les clignotants, freiner, accélérer, tourner, changer de rapport de vitesse etc… Faire ces actions de manière sécurisée demande une prise de décision qui anticipe les situations futures. Cette anticipation se fait en trois étapes : perception, prédiction, et planification.La perception reconstitue la scène routière environnante. La prédiction estime les états futurs de la scène. La planification produit une intention de trajectoire jugée sûre.Si les états futurs de la scène routière étaient parfaitement connus, la planification serait simple. Cependant, le futur ne peut pas être prédit parfaitement à cause des incertitudes liées au bruit d’observation mais surtout parce que l’on ne sait pas modéliser parfaitement le comportement des conducteurs humains. Ainsi, pour garantir plus de sécurité et de confort, il est important d’améliorer les modèles de prédiction de scènes routières dans les situations complexes avec des observations bruitées.Plusieurs approches peuvent être adoptées pour prédire le mouvement des objets des scènes routières. Les trois principales sont l’approche heuristique et cinématique, l’approche statistique et l’approche par processus de décision. L’approche cinématique et heuristique est celle adoptée historiquement et offre efficacité et robustesse. La plupart des véhicules actuels qui emploient une prédiction de court terme utilisent cette approche. Cependant, dans des situations complexes, ces méthodes sont trop conservatives. L’approche par prise de décision prédit les actions de chaque objet pour définir sa trajectoire future. Elle a de bonnes performances dans les scénarios complexes mais se limite à un environnement contrôlé ou aux simulations. Dans un environnement réel bruité, l’approche statistique offre actuellement le meilleur compromis.Cette thèse emploie les réseaux neuronaux pour apprendre les statistiques de trajectoires de véhicules. Nous établissons des critères d'évaluation permettant de juger et de comparer les différents modèles. Le critère principal est la vraisemblance des données au vu des distributions prédites. Cependant, il n’y a pas de critère universel jugeant de la pertinence des prédictions et cela reste une importante question ouverte.Nous débutons nos expériences avec des réseaux neuronaux classiques prédisant le maximum de vraisemblance des positions futures. Ces modèles sont ensuite modifiés pour prédire l’erreur de prédiction attendue en minimisant le critère NLL. C’est un critère évaluant la vraisemblance des données observées pour les distributions de trajectoires futures prédites. Ces premières approches ne surpassent pas la prédiction à vitesse constante. Nous ajoutons alors au modèle la capacité de représenter les interactions entre les véhicules grâce à l’architecture d’attention à plusieurs têtes. Les résultats obtenus sont alors bien meilleurs mais toujours insatisfaisants. Nous ajoutons donc au modèle la capacité de considérer plusieurs hypothèses futures et une capacité d’interaction avec le tracé des voies navigables. Nos expériences montrent l’utilité des blocs composant le réseau neuronal et représentant différents aspects du problème. Nous constatons une spécialisation du modèle pour certaines interactions types et que des hypothèses de trajectoires futures très différentes sont prédites dans certaines situations. Les résultats obtenus ont remporté les deux premières compétitions Argoverse.

Motion forecasting of the objects in road scenes

Prédiction du mouvement des objets dans les scènes routières

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager