E. Said-yacine-boulahia, F. Anquetil, R. Multon, R. Kulpa-;-franck-multon, and . Kulpa, Said Yacine Boulahia, Eric Anquetil, Richard Kulpa, Franck Multon. 3D Multistroke Mapping (3DMM) : Transfer of hand-drawn pattern representation for skeletonbased gesture recognition, CuDi3D : Curvilinear displacement based approach for online 3D action detection. Computer Vision and Image Understanding, pp.985-990, 2016.

A. Almaksour and E. Anquetil, Improving premise structure in evolving takagi-sugeno neuro-fuzzy classifiers, Evolving Systems, vol.2, issue.1, pp.25-33, 2011.
URL : https://hal.archives-ouvertes.fr/hal-00741483

E. Anquetil and G. Lorette, Perceptual model of handwriting drawing. application to the handwriting segmentation problem, Proceedings of the Fourth International Conference on, vol.1, pp.112-117, 1997.

V. Bloom, V. Argyriou, and D. Makris, Dynamic feature selection for online action recognition, Proceedings of the 4th International Workshop on Human Behavior Understanding, pp.64-76, 2013.

V. Bloom, V. Argyriou, and D. Makris, Hierarchical transfer learning for online recognition of compound actions, Computer Vision and Image Understanding, vol.144, pp.62-72, 2016.

V. Bloom, V. Argyriou, and D. Makris, Linear latent low dimensional space for online early action recognition and prediction, Pattern Recognition, vol.72, pp.532-547, 2017.

C. Barber, H. David-p-dobkin, and . Huhdanpaa, The quickhull algorithm for convex hulls, ACM Transactions on Mathematical Software (TOMS), vol.22, issue.4, pp.469-483, 1996.

R. Bellman and R. Kalaba, On adaptive control processes, IRE Transactions on Automatic Control, vol.4, issue.2, pp.1-9, 1959.

S. Baek, . Kwang-in, T. Kim, and . Kim, Real-time online action detection forests using spatio-temporal contexts, Proceedings of Chapitre 6
DOI : 10.1109/wacv.2017.25

URL : http://arxiv.org/pdf/1610.09334

O. Brdiczka, M. Langet, J. Maisonnasse, and J. Crowley, Detecting human behavior models from multimodal observation in a smart home, IEEE Transactions on Automation Science and Engineering, vol.6, issue.4, pp.588-597, 2009.
DOI : 10.1109/tase.2008.2004965

V. Bloom, D. Makris, and V. Argyriou, G3d : A gaming action dataset and real time action recognition evaluation framework, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, pp.7-12, 2012.
DOI : 10.1109/cvprw.2012.6239175

V. Bloom, D. Makris, and V. Argyriou, Clustered spatio-temporal manifolds for online action recognition, Proceedings of the 22nd IEEE International Conference on Pattern Recognition, pp.3963-3968, 2014.
DOI : 10.1109/icpr.2014.679

T. Leonard-e-baum, G. Petrie, N. Soules, and . Weiss, A maximization technique occurring in the statistical analysis of probabilistic functions of markov chains. The annals of mathematical statistics, vol.41, pp.164-171, 1970.

L. Breiman, Random forests. Machine learning, vol.45, pp.5-32, 2001.

, Brekel Affordable Motion Capture Tools, 2018.

S. Boubou and E. Suzuki, Classifying actions based on histogram of oriented velocity vectors, Journal of Intelligent Information Systems, vol.44, issue.1, pp.49-65, 2015.

W. Lee, A. Campbell, and . Bobick, Recognition of human body motion using phase space constraints, Computer Vision, 1995. Proceedings., Fifth International Conference on, pp.624-630, 1995.

Y. Cao, D. Barrett, A. Barbu, S. Narayanaswamy, H. Yu et al., Jeffrey Mark Siskind, and Song Wang. Recognize human activities from partially observed videos, Computer Vision and Pattern Recognition (CVPR), 2013 IEEE Conference on, pp.2658-2665, 2013.

K. Cho and X. Chen, Classifying and visualizing motion capture sequences using deep neural networks, Computer Vision Theory and Applications (VISAPP), 2014 International Conference on, vol.2, pp.122-130, 2014.

J. Charles and M. Everingham, Learning shape models for monocular human pose estimation from the microsoft xbox kinect, Computer Vision Workshops (ICCV Workshops, pp.1202-1208, 2011.

C. Chen, R. Jafari, and N. Kehtarnavaz, A real-time human action recognition system using depth and inertial sensor fusion, IEEE Sensors Journal, vol.16, issue.3, pp.773-781, 2016.

X. Chen and M. Koskela, Online rgb-d gesture recognition with extreme learning machines, Proceedings of the 15th ACM on International conference on multimodal interaction, pp.467-474, 2013.

C. Chih, C. Chang, and . Lin, LIBSVM : A library for support vector machines, ACM Transactions on Intelligent Systems and Technology, vol.2, pp.1-27, 2011.

C. Chih, C. Chang, and . Lin, Libsvm : a library for support vector machines, ACM Transactions on Intelligent Systems and Technology, vol.2, issue.3, p.27, 2011.

R. Chaudhry, F. Ofli, G. Kurillo, R. Bajcsy, and R. Vidal, Bio-inspired dynamic 3d discriminative skeletal features for human action recognition, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, pp.471-478, 2013.

C. Cortes and V. Vapnik, Support-vector networks, Machine learning, vol.20, issue.3, pp.273-297, 1995.

C. Cadoz and M. M. Wanderley, Gesture-music, 2000.
URL : https://hal.archives-ouvertes.fr/hal-01105543

A. Delaye and E. Anquetil, Hbf49 feature set : A first unified baseline for online symbol recognition, Pattern Recognition, vol.46, issue.1, pp.117-130, 2013.
URL : https://hal.archives-ouvertes.fr/hal-00933509

M. Devanne, S. Berretti, and P. Pala, Hazem Wannous, Mohamed Daoudi, and Alberto Del Bimbo. Motion segment decomposition of rgb-d sequences for human behavior understanding, Pattern Recognition, vol.61, pp.222-233, 2017.

E. Demircan, D. Kulic, D. Oetomo, and M. Hayashibe, Human movement understanding, IEEE Robotics & Automation Magazine, vol.22, issue.3, pp.22-24, 2015.
URL : https://hal.archives-ouvertes.fr/lirmm-01235844

W. Ding, K. Liu, F. Cheng, and J. Zhang, Learning hierarchical spatio-temporal pattern for human activity prediction, Journal of Visual Communication and Image Representation, vol.35, pp.103-111, 2016.

W. Ding, K. Liu, F. Cheng, and J. Zhang, Stfc : Spatio-temporal feature chain for skeleton-based human action recognition, Journal of Visual Communication and Image Representation, vol.26, pp.329-337, 2015.

M. Dupont and P. Marteau, Coarse-dtw for sparse time series alignment, International Workshop on Advanced Analytics and Learning on Temporal Data, pp.157-172, 2015.

Q. De-smedt, H. Wannous, and J. Vandeborre, Skeleton-based dynamic hand gesture recognition, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, pp.1-9, 2016.
URL : https://hal.archives-ouvertes.fr/hal-01535152

Q. De-smedt, H. Wannous, J. Vandeborre, J. Guerry, B. L. Saux et al., Shrec'17 track : 3d hand gesture recognition using a depth and skeletal dataset, 10th Eurographics Workshop on 3D Object Retrieval, 2017.
URL : https://hal.archives-ouvertes.fr/hal-01563505

W. James, A. Davis, and . Tyagi, Minimal-latency human action recognition using reliable-inference, Image and Vision Computing, vol.24, issue.5, pp.455-472, 2006.

M. Dupont, Glove-based gesture recognition for real-time outdoors robot control, 2017.
URL : https://hal.archives-ouvertes.fr/tel-01593612

M. Devanne, H. Wannous, S. Berretti, P. Pala, M. Daoudi et al., 3-d human action recognition by shape analysis of motion trajectories on riemannian manifold, IEEE transactions on cybernetics, vol.45, issue.7, pp.1340-1352, 2015.
URL : https://hal.archives-ouvertes.fr/hal-01056397

M. Devanne, H. Wannous, P. Pala, S. Berretti, M. Daoudi et al., Combined shape analysis of human poses and motion units for action segmentation and recognition, Proceedings of the 11th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition, vol.7, pp.1-6, 2015.
DOI : 10.1109/fg.2015.7284880

URL : https://hal.archives-ouvertes.fr/hal-01207932

Y. Du, W. Wang, and L. Wang, Hierarchical recurrent neural network for skeleton based action recognition, Proceedings of the IEEE conference on computer vision and pattern recognition, pp.1110-1118, 2015.

A. Efrat, Q. Fan, and S. Venkatasubramanian, Curve matching, time warping, and light fields : New algorithms for computing similarity between curves, Journal of Mathematical Imaging and Vision, vol.27, issue.3, pp.203-216, 2007.

E. F. Hugo-jair-escalante, . Morales, and . Sucar, A naive bayes baseline for early gesture recognition, Pattern Recognition Letters, vol.73, pp.91-99, 2016.

E. Ellis, . Syed-zain-masood, J. J. Marshall-f-tappen, R. Laviola, and . Sukthankar, Exploring the trade-off between accuracy and observational latency in action recognition, International Journal of Computer Vision, vol.101, issue.3, pp.420-436, 2013.

G. Evangelidis, G. Singh, and R. Horaud, Skeletal quads : Human action recognition using joint quadruples, Proceedings of the IEEE International Conference on Pattern Recognition, pp.4513-4518, 2014.
DOI : 10.1109/icpr.2014.772

URL : https://hal.archives-ouvertes.fr/hal-00989725

T. Fujii, J. H. Lee, and S. Okamoto, Gesture recognition system for human-robot interaction and its application to robotic service task, Proc. of the International Multi-Conference of Engineers and Computer Scientists (IMECS), vol.1, 2014.

S. Fothergill, H. Mentis, P. Kohli, and S. Nowozin, Instructing people for training gestural interactive systems, Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, pp.1737-1746, 2012.
DOI : 10.1145/2207676.2208303

M. Fujita, Digital creatures for future entertainment robotics, Robotics and Automation, 2000. Proceedings. ICRA'00. IEEE International Conference on, vol.1, pp.801-806, 2000.
DOI : 10.1109/robot.2000.844149

M. Scott-a-green, X. Billinghurst, J. Chen, and . Chase, Human-robot collaboration : A literature review and augmented reality approach in design, International Journal of Advanced Robotic Systems, vol.5, issue.1, p.1, 2008.

W. Ge, T. Robert, . Collins, and . Barry-ruback, Vision-based analysis of small groups in pedestrian crowds, IEEE transactions on pattern analysis and machine intelligence, vol.34, pp.1003-1016, 2012.

Y. Gu, H. Do, Y. Ou, and W. Sheng, Human gesture recognition through a kinect sensor, Robotics and Biomimetics (ROBIO), 2012 IEEE International Conference on, pp.1379-1384, 2012.
DOI : 10.1109/robio.2012.6491161

G. Guerra, -. , and Y. Aloimonos, Understanding visuomotor primitives for motion synthesis and analysis, Computer Animation and Virtual Worlds, vol.17, issue.3-4, pp.207-217, 2006.

A. Gupta, J. Martinez, J. J. Little, and R. Woodham, 3d pose from motion for cross-view action recognition via non-linear circulant temporal encoding, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp.2601-2608, 2014.

H. Benyamin-ghojogh, M. Mohammadzade, and . Mokari, Fisherposes for human action recognition using kinect sensor data, IEEE Sensors Journal, 2017.

R. Girshick, J. Shotton, P. Kohli, A. Criminisi, and A. Fitzgibbon, Efficient regression of general-activity human poses from depth images, 2011 IEEE International Conference on, p.177, 2011.

M. Mohammad-abdelaziz-gowayyed and . Torki, Mohamed Elsayed Hussein, and Motaz El-Saban. Histogram of oriented displacements (hod) : Describing trajectories of human joints for action recognition, IJCAI, pp.1351-1357, 2013.

B. Holt, E. Ong, H. Cooper, and R. Bowden, Putting the pieces together : Connected poselets for human pose estimation, Computer Vision Workshops (ICCV Workshops), pp.1196-1201, 2011.
DOI : 10.1109/iccvw.2011.6130386

URL : http://www.ee.surrey.ac.uk/Personal/R.Bowden/publications/2011/ICCV/WS/Holt2011Putting.pdf

. Robert-c-holte, Very simple classification rules perform well on most commonly used datasets, Machine learning, vol.11, issue.1, pp.63-90, 1993.

C. Hecker, B. Raabe, W. Ryan, J. Enslow, and . Deweese, Jordan Maynard, and Kees van Prooijen. Real-time motion retargeting to highly varied user-created morphologies, ACM Transactions on Graphics (TOG), vol.27, issue.3, p.27, 2008.

F. Han, B. Reily, W. Hoff, and H. Zhang, Space-time representation of people based on 3d skeletal data : A review, Computer Vision and Image Understanding, vol.158, pp.85-105, 2017.

M. Mohamed-e-hussein and . Torki, Mohammad Abdelaziz Gowayyed, and Motaz El-Saban. Human action recognition using a temporal hierarchy of covariance descriptors on 3d joint locations, IJCAI, vol.13, pp.2466-2472, 2013.

D. Huang, S. Yao, Y. Wang, and F. Torre, Sequential max-margin event detectors, European conference on computer vision, pp.410-424, 2014.

E. Ibbt, Does human action recognition benefit from pose estimation ?

D. Impedovo, G. Pirlo, E. Sarcinella, C. A. Stasolla, and . Trullo, Analysis of stability in static signatures using cosine similarity, Frontiers in Handwriting Recognition (ICFHR), 2012 International Conference on, pp.231-235, 2012.

I. Bongjin-jun, D. Choi, and . Kim, Local transform features and hybridization for accurate face and human detection, IEEE transactions on pattern analysis and machine intelligence, vol.35, pp.1423-1436, 2013.

G. Johansson, Visual perception of biological motion and a model for its analysis, Perception & psychophysics, vol.14, issue.2, pp.201-211, 1973.

G. Mithun, J. P. Jacob, and . Wachs, Context-based hand gesture recognition for the operating room, Pattern Recognition Letters, vol.36, pp.196-203, 2014.

X. Jiang and F. Zhong, Online robust action recognition based on a hierarchical model. The Visual Computer, vol.30, pp.1021-1033, 2014.

R. Kulpa and G. James, Adaptation interactive et performante des mouvements d'humanoïdes synthétiques : aspects cinématique, cinétique et dynamique, 2005.

A. Kuzmanic and V. Zanchi, Hand shape classification using dtw and lcss as similarity measures for vision-based gesture recognition system, The International Conference on" Computer as a Tool, pp.264-269, 2007.

T. Lan, T. Chen, and S. Savarese, A hierarchical representation for future action prediction, European Conference on Computer Vision, pp.689-704, 2014.

K. Li and Y. Fu, Arma-hmm : A new approach for early recognition of human activity, Pattern Recognition (ICPR), 2012 21st International Conference on, pp.1779-1782, 2012.

J. Feng-shun-lin, M. Karg, and D. Kuli?, Movement primitive segmentation for human motion modeling : A framework for analysis, IEEE Transactions on Human-Machine Systems, vol.46, issue.3, pp.325-339, 2016.

Y. Li, C. Lan, J. Xing, W. Zeng, C. Yuan et al., Online human action detection using joint classificationregression recurrent neural networks, Proceedings of the European Conference on Computer Vision, pp.203-220, 2016.

J. Liu, A. Shahroudy, D. Xu, A. K. Chichung, and G. Wang, Skeleton-based action recognition using spatio-temporal lstm network with trust gates, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017.

J. Luo, W. Wang, and H. Qi, Group sparsity and geometry constrained dictionary learning for action recognition from depth maps, Proceedings of the IEEE International Conference on Computer Vision, pp.1809-1816, 2013.

C. Li, Q. Zhong, D. Xie, and S. Pu, Skeleton-based action recognition with convolutional neural networks, 2017 IEEE International Conference on, pp.597-600, 2017.

M. Morel, C. Achard, R. Kulpa, and S. Dubuisson, Automatic evaluation of sports motion : A generic computation of spatial and temporal errors, Image and Vision Computing, vol.64, pp.67-78, 2017.
URL : https://hal.archives-ouvertes.fr/hal-01586401

M. Morel, C. Achard, and R. Kulpa, and Séverine Dubuisson. Time-series averaging using constrained dynamic time warping with tolerance, Pattern Recognition, vol.74, pp.77-89, 2018.

F. Mondada, M. Bonani, X. Raemy, J. Pugh, C. Cianci et al., The e-puck, a robot designed for education in engineering, Proceedings of the 9th conference on autonomous robot systems and competitions, vol.1, pp.59-65, 2009.

M. Meshry, M. E. Hussein, and M. Torki, Linear-time online action detection from 3d skeletal data using bags of gesturelets, 2015.

M. Meshry, M. E. Hussein, and M. Torki, Linear-time online action detection from 3d skeletal data using bags of gesturelets, Applications of Computer Vision (WACV), 2016 IEEE Winter Conference on, pp.1-9, 2016.

, Modélisation de séries temporelles multidimensionnelles. Application à l'évaluation générique et automatique du geste sportif, 2017.

M. Müller and T. Röder, Motion templates for automatic classification and retrieval of motion capture data, Proceedings of the Chapitre

, ACM SIGGRAPH/Eurographics symposium on Computer animation, pp.137-146, 2006.

M. Müller, T. Röder, and M. Clausen, Efficient contentbased retrieval of motion capture data, In ACM Transactions on Graphics (ToG), vol.24, pp.677-685, 2005.

M. Müller, T. Röder, M. Clausen, B. Eberhardt, B. Krüger et al., Mocap database hdm05. Institut für Informatik II, vol.2, 2007.

C. Myers, L. Rabiner, and A. Rosenberg, Performance tradeoffs in dynamic time warping algorithms for isolated word recognition, IEEE Transactions on Acoustics, Speech, and Signal Processing, vol.28, issue.6, pp.623-635, 1980.

S. Mackenzie and K. Tanaka-ishii, Text entry systems : Mobility, accessibility, universality, 2010.

S. Nowozin and J. Shotton, Action points : A representation for low-latency online human action recognition. Microsoft Research Cambridge, 2012.

M. Nielsen, M. Störring, E. Thomas-b-moeslund, and . Granum, A procedure for developing intuitive and ergonomic gesture interfaces for hci, International gesture workshop, pp.409-420, 2003.

E. Ohn, -. Bar, and M. Trivedi, Joint angles similarities and hog2 for action recognition, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, pp.465-470, 2013.

F. Ofli, R. Chaudhry, G. Kurillo, R. Vidal, and R. Bajcsy, Sequence of the most informative joints (smij) : A new representation for human skeletal action recognition, Journal of Visual Communication and Image Representation, vol.25, issue.1, pp.24-38, 2014.

O. Oreifej and Z. Liu, Hon4d : Histogram of oriented 4d normals for activity recognition from depth sequences, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, p.181, 2013.

K. Okada, T. Ogura, A. Haneda, and J. Fujimoto, Humanoid motion generation system on hrp2-jsk for daily life environment, Mechatronics and Automation, 2005 IEEE International Conference, vol.4, pp.1772-1777, 2005.

. Optitrack, April, vol.23, 2018.

H. Pazhoumand-dar, C. Lam, and M. Masek, Joint movement similarities for robust 3d action recognition using skeletal data, Journal of Visual Communication and Image Representation, vol.30, pp.10-21, 2015.

C. Plagemann, V. Ganapathi, D. Koller, and S. Thrun, Real-time identification and localization of body parts from depth images, Robotics and Automation (ICRA), 2010 IEEE International Conference on, pp.3108-3113, 2010.

C. Park and S. Lee, Real-time 3d pointing gesture recognition for mobile robots with cascade hmm and particle filter, Image and Vision Computing, vol.29, issue.1, pp.51-63, 2011.
DOI : 10.1016/j.imavis.2010.08.006

L. L. Presti and M. L. Cascia, 3d skeleton-based human action classification : A survey, Pattern Recognition, vol.53, pp.130-147, 2016.

L. L. Presti, M. L. Cascia, S. Sclaroff, and O. Camps, Gesture modeling by hanklet-based hidden markov model, Proceedings of the Asian Conference on Computer Vision, pp.529-546, 2014.

O. Patsadu, C. Nukoolkit, and B. Watanapa, Human gesture recognition using kinect camera, Computer Science and Software Engineering, pp.28-32, 2012.
DOI : 10.1109/jcsse.2012.6261920

C. Ramstein, Analyse, représentation et traitement du geste instrumental : application aux instruments à clavier, 1991.

H. Rahmani, A. Mahmood, Q. Du, A. Huynh, and . Mian, Real time action recognition using histograms of depth gradients and random decision forests, Applications of Computer Vision (WACV), 2014 IEEE Winter Conference on, pp.626-633, 2014.
DOI : 10.1109/wacv.2014.6836044

URL : http://www.csse.uwa.edu.au/%7Eajmal/papers/hossein_WACV2014.pdf

. Michael-s-ryoo, Human activity prediction : Early recognition of ongoing activities from streaming videos, 2011 IEEE International Conference on, pp.1036-1043, 2011.

H. Sakoe and S. Chiba, Dynamic programming algorithm optimization for spoken word recognition, IEEE transactions on acoustics, speech, and signal processing, vol.26, pp.43-49, 1978.

Y. Song, D. Demirdjian, and R. Davis, Continuous body and hand gesture recognition for natural human-computer interaction, ACM Transactions on Interactive Intelligent Systems (TiiS), vol.2, issue.1, 2012.
DOI : 10.1145/2133366.2133371

Y. Song, Y. Gu, P. Wang, Y. Liu, and A. Li, A kinect based gesture recognition algorithm using gmm and hmm, Biomedical Engineering and Informatics (BMEI), 2013 6th International Conference on, pp.750-754, 2013.
DOI : 10.1109/bmei.2013.6747040

A. Firooz, E. Sadjadi, and . Hall, Three-dimensional moment invariants. Pattern Analysis and Machine Intelligence, IEEE Transactions on, issue.2, pp.127-136, 1980.

A. Sorel, R. Kulpa, E. Badier, and F. Multon, Dealing with variability when recognizing user's performance in natural 3d gesture interfaces, International Journal of Pattern Recognition and Artificial Intelligence, vol.27, issue.08, p.1350023, 2013.

M. Sun, P. Kohli, and J. Shotton, Conditional regression forests for human pose estimation, Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on, pp.3394-3401, 2012.

L. A. Schwarz, A. Mkhitaryan, D. Mateus, and N. Navab, Human skeleton tracking from depth data using geodesic distances and optical flow, Image and Vision Computing, vol.30, issue.3, pp.217-226, 2012.
DOI : 10.1016/j.imavis.2011.12.001

URL : https://hal.archives-ouvertes.fr/hal-01692292

A. Sorel, Gestion de la variabilité morphologique pour la reconnaissance de gestes naturels à partir de données 3D, 2012.

J. Sung, C. Ponce, B. Selman, and A. Saxena, Human activity detection from rgbd images. plan, activity, and intent recognition, vol.64, p.183, 2011.

J. Sung, C. Ponce, B. Selman, and A. Saxena, Unstructured human activity detection from rgbd images, Robotics and Automation (ICRA), 2012 IEEE International Conference on, pp.842-849, 2012.

H. Sak, A. Senior, and F. Beaufays, Long short-term memory recurrent neural network architectures for large scale acoustic modeling, Fifteenth Annual Conference of the International Speech Communication Association, 2014.

J. Shotton, T. Sharp, A. Kipman, A. Fitzgibbon, M. Finocchio et al., Real-time human pose recognition in parts from single depth images, Communications of the ACM, vol.56, issue.1, pp.116-124, 2013.
DOI : 10.1145/2398356.2398381

URL : http://www.cs.cmu.edu/afs/cs.cmu.edu/academic/class/15869-f11/www/readings/shotton11_skeleton.pdf

Y. Sheikh, M. Sheikh, and M. Shah, Exploring the space of a human action, Computer Vision, 2005. ICCV 2005. Tenth IEEE International Conference on, vol.1, pp.144-149, 2005.

A. Sharaf, M. Torki, M. E. Hussein, and M. El-saban, Real-time multi-scale action detection from 3d skeleton data, Proceedings of the IEEE Winter Conference on Applications of Computer Vision, pp.998-1005, 2015.

R. Slama, H. Wannous, M. Daoudi, and A. Srivastava, Accurate 3d action recognition using learning on the grassmann manifold, Pattern Recognition, vol.48, issue.2, pp.556-567, 2015.
URL : https://hal.archives-ouvertes.fr/hal-01056399

I. Theodorakopoulos, D. Kastaniotis, G. Economou, and S. Fotopoulos, Pose-based human action recognition via sparse representation in dissimilarity space, Journal of Visual Communication and Image Representation, vol.25, issue.1, pp.12-23, 2014.

R. Vemulapalli, F. Arrate, and R. Chellappa, Human action recognition by representing 3d skeletons as points in a lie group, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp.588-595, 2014.

T. Vieira, R. Faugeroux, D. Martínez, and T. Lewiner, Online human moves recognition through discriminative key poses Chapitre 6 and speed-aware action graphs. Machine Vision and Applications, vol.28, pp.185-200, 2017.

. Vicon, , 2018.

A. Viterbi, Error bounds for convolutional codes and an asymptotically optimum decoding algorithm, IEEE transactions on Information Theory, vol.13, issue.2, pp.260-269, 1967.

. Wikipedia, Réseau de neurones récurrents, 2018.

J. Wang, Z. Liu, and Y. Wu, Learning actionlet ensemble for 3d human action recognition, Human Action Recognition with Depth Cameras, pp.11-40, 2014.

J. Wang, Z. Liu, Y. Wu, and J. Yuan, Mining actionlet ensemble for action recognition with depth cameras, Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on, pp.1290-1297, 2012.

Y. Wu, H. Wang, L. Chang, and K. Li, Using hmms and depth information for signer-independent sign language recognition, International Workshop on Multi-disciplinary Trends in Artificial Intelligence, pp.79-86, 2013.

A. D. Jacob-o-wobbrock, Y. Wilson, and . Li, Gestures without libraries, toolkits or training : a one-dollar recognizer for user interface prototypes, Proceedings of the 20th annual ACM symposium on User interface software and technology, pp.159-168, 2007.

C. Wang, Y. Wang, and A. L. Yuille, An approach to posebased action recognition, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp.915-922, 2013.

Y. Wang, C. Yang, X. Wu, S. Xu, and H. Li, Kinect based dynamic hand gesture recognition algorithm research, Intelligent Human-Machine Systems and Cybernetics (IHMSC), 2012 4th International Conference on, vol.1, p.185, 2012.

[. Wyw-+-12b]-xiaoyu, C. Wu, Y. Yang, H. Wang, S. Li et al., An intelligent interactive system based on hand gesture recognition algorithm and kinect, Computational Intelligence and Design (ISCID), vol.2, pp.294-298, 2012.

P. Wei, Y. Zhao, N. Zheng, and S. Zhu, Modeling 4d human-object interactions for event and object recognition, Proceedings of the IEEE International Conference on Computer Vision, pp.3272-3279, 2013.

P. Wei, N. Zheng, Y. Zhao, and S. Zhu, Concurrent action detection with structural prediction, Proceedings of the IEEE International Conference on Computer Vision, pp.3136-3143, 2013.

L. Xia and C. Chen, View invariant human action recognition using histograms of 3d joints, Computer Vision and Pattern Recognition Workshops (CVPRW), pp.20-27, 2012.

. Xcl-+-12]-dan, Y. Xu, C. Chen, X. Lin, X. Kong et al., Realtime dynamic gesture recognition system based on depth perception for robot navigation, Robotics and Biomimetics (ROBIO), 2012 IEEE International Conference on, pp.689-694, 2012.

J. Ho-yub and S. Lee, Yong Seok Heo, and Il Dong Yun. Random tree walk toward instantaneous 3d human pose estimation, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp.2467-2474, 2015.

G. Yu, Z. Liu, and J. Yuan, Discriminative orderlet mining for real-time recognition of human-object interaction, Asian Conference on Computer Vision, pp.50-65, 2014.

X. Yang and Y. Li-tian, Eigenjoints-based action recognition using naive-bayes-nearest-neighbor, Computer vision and pattern recognition workshops, pp.14-19, 2012.

X. Yang and Y. Tian, Effective 3d action recognition using eigenjoints, Journal of Visual Communication and Image Representation, vol.25, issue.1, pp.2-11, 2014.

Y. Zhu, W. Chen, and G. Guo, Fusing spatiotemporal features and joints for 3d action recognition, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, pp.486-491, 2013.

Z. Zhang, Microsoft kinect sensor and its effect, IEEE multimedia, vol.19, issue.2, pp.4-10, 2012.

X. Zhao, X. Li, C. Pang, X. Zhu, . Quan et al., Online human gesture recognition from motion data streams, Proceedings of the 21st ACM international conference on Multimedia, pp.23-32, 2013.

X. Zhao, X. Li, C. Pang, Z. Quan, S. Sheng et al., Structured streaming skeleton-a new feature for online human gesture recognition, ACM Transactions on Multimedia Computing, Communications, and Applications, vol.11, issue.1s, p.22, 2014.

M. Zanfir, M. Leordeanu, and C. Sminchisescu, The moving pose : An efficient 3d kinematics descriptor for low-latency action recognition and detection, Proceedings of the IEEE International Conference on Computer Vision, pp.2752-2759, 2013.

W. Zhu, C. Lan, J. Xing, W. Zeng, Y. Li et al., Co-occurrence feature learning for skeleton based action recognition using regularized deep lstm networks, AAAI, vol.2, p.8, 2016.

S. Zhang, X. Liu, and J. Xiao, On geometric features for skeleton-based action recognition using multilayer lstm networks, Applications of Computer Vision (WACV), 2017 IEEE Winter Conference on, pp.148-157, 2017.

M. Hong-, C. Zhu, and . Pun, Real-time hand gesture recognition from depth image sequences, Computer Graphics, Imaging and Visualization (CGIV), pp.49-52, 2012.

H. Zhang and L. E. Parker, Bio-inspired predictive orientation decomposition of skeleton trajectories for real-time human activity predic

. , Robotics and Automation (ICRA), 2015 IEEE International Conference on, pp.3053-3060, 2015.

C. Zhang and Y. Tian, Rgb-d camera-based daily living activity recognition, Journal of Computer Vision and Image Processing, vol.2, issue.4, p.12, 2012.

W. Zou, B. Wang, and R. Zhang, Human action recognition by mining discriminative segment with novel skeleton joint feature, Pacific-Rim Conference on Multimedia, pp.517-527, 2013.

S. Zhang, Y. Yang, J. Xiao, X. Liu, Y. Yang et al., Fusing geometric features for skeleton-based action recognition using multilayer lstm networks, IEEE Transactions on Multimedia, 2018.

. , Diagramme de flux de données pour un système générique de reconnaissance d'actions, comprenant des étapes interdépendantes de modélisation, d'entraînement, de segmentation et de classification

, Exemples de coordonnées cartésiennes (points rouges) et angulaires des articulations (flèches rouges) fournies par les systèmes de capture, p.14

, Distinction entre une approche séquentielle et une approche statistique, p.15

, Illustration des performances d'une approche transparente utilisant un SVM et une approche à base d'un apprentissage profond utilisant des LSTM, p.16

. , Système de capture de mouvement optique basé sur des marqueurs rétroréfléchissants attachés au corps de l'acteur. Les marqueurs sont suivis par un ensemble de six à douze caméras haute résolution disposées en cercle

. , Les articulations du cou et de la main correspondent aux points (0,0,0) et (1,1,1) dans le nouveau système de coordonnées locales

, Illustration des trajectoires 3D représentées comme une courbe dans le groupe de Lie suite au changement de l'espace de représentation

, Les auteurs se basent sur trois types de données relatives pour chaque trame dont la position relative dans une même trame f cc , la position relative entre deux trames f cp et la position relative par rapport à la trame initiale f ci, p.23

, Chapitre 6

. , Distribution des articulations les plus informatives pour différentes classes d'actions de la base MHAD. Chaque entrée correspond au pourcentage du temps où une articulation donnée est considérée comme la plus informative pour une action donnée (plus sombre signifie un pourcentage plus élevé), 11 (a) Illustration des 21 angles articulaires bruts tels que fournis dans la base MHAD. (b)

. , Illustration des données décrivant les relations géométriques entre les différentes articulations du corps, indiquées par des marqueurs rouges et noirs, au niveau d'une même pose [MRC05]

, Illustration des plans articulaires à considérer pour exprimer les relations géométriques permettant de caractériser une action, p.28

, J M aindroite ) lors de la performance des actions (a) applaudissement avec les deux mains, (b) un service de tennis, effectuées par deux sujets. L'échelle horizontale affiche le numéro de la trame et l'échelle verticale indique la distance relative, Illustration des valeurs SRP (J M aingauche

. , Illustration des modalités de squelette et de profondeur utilisées pour construire la représentation dite actionlet

G. ]. , Illustration d'un HMM gauche-droite à cinq états entraîné pour reconnaître l'action "s'asseoir

. Vue-d'ensemble-de-la-méthode-proposée-par-xia, , p.34

, Illustration d'une matrice de coût mise à jour de manière incrémentale suivant la technique déployée dans Stream-DTW, p.39

P. ]. , Illustration d'une correspondance de deux trajectoires contenant des valeurs aberrantes (outliers) au moyen de la LCSS, p.40

, Représentation des descripteurs, colorés en rouge ou bleu selon la classe à laquelle ils appartiennent. L'hyperplan de séparation est indiqué par un trait plein, linéaire dans le premier cas et non linéaire dans le second, p.41

W. ]. , Extraction des descripteurs suivant une hiérarchie temporelle à trois niveaux pour former la représentation dite actionlet, p.45

. , Illustration de la matrice de covariance permettant de construire le descripteur Cov3DJ

. , Une matrice de covariance au l eme niveau couvre T 2 l trames de la séquence, où T est la longueur de la séquence entière, Construction temporelle du descripteur de covariance Cov3DJ

. , Illustration (a) des poses simples, (b)-(1,2) des n-uplets temporels et (c)-(3) des n-uplets spatiaux composant les cinq dictionaires utilisés pour former la représentation de Wang et al

. , Illustration de la construction temporelle pour la représentation à base de dictionnaire proposée dans

, Schéma d'un réseau de neurones récurrents à une unité reliant l'entrée et la sortie du réseau. A droite la version dépliée de la structure, p.51

. , Un diagramme illustratif du réseau hiérarchique de neurones récurrents proposé dans

, Illustration de l'architecture proposée par [ZLX + 16] permettant la recherche automatique des relations de co-occurence entre les articulations, p.52

. , Représentation CNN des séquences du squelette pour la classification des actions comme proposée dans

. , Multi-Modal Action Detection) illustrant un enchaînement typique (Action-Repos-Action) dans les séquences de cette base, Des exemples de trames de la base de données MAD

. , SMMED rejette automatiquement une classe quand elle est sûre que l'action en cours ne peut pas appartenir à cette classe

, Illustration des scores de confiance obtenus par trois classifieurs SVM à différentes échelles temporelles, à savoir 24, 32 et 40 trames

, Trois trames statiques extraites d'une séquence de marche d'un humain

, Les illustrations (a) et (b) mettent en avant ces problèmes lorsque des angles sont appliqués sur deux personnages dont la taille des bras ne correspond pas. L'illustration (c) montre la posture qui respecte le contact initial des mains lors de cette reconstruction, Illustration du problème de morphologies différentes lors de la reconstruction, pour des besoins d'animation, de personnages virtuels à partir des données réelles [KJ05, p.66

. , Illustration de certaines trajectoires articulaires lors de la performance d'une action

, Principales étapes constituant l'approche 3DMM, proposée pour la reconnaissance des actions à base de données squelettiques, p.69

. , illustration des articulations sélectionnées (épaules, coude et poignets pour le haut du corps et les hanches, genoux et chevilles pour le bas du corps) et des vecteurs amorphologiques associés

, Chapitre 6

, Illustration de la variation du nombre de strokes pour la lettre "E" (de un à quatre strokes). La direction de la stroke est indiquée par un point au début d'un trait

. , Illustration d'un symbole formé par deux strokes pour lesquels (a) le volume de la boite englobante et (b) l'histogramme comptabilisant la répartition des points sont calculés

, chacune des trajectoires amorphologiques est projetée sur les trois plans. (a) Dans la version monostroke, chaque trajectoire est considérée indépendamment des autres et est assimilée à un tracé 2D composé d'un seul trait, d'où la couleur différente pour chacune de ces trajectoires. (b) Dans la version multistrokes, un tracé est composé de toutes les trajectoires projetées appartenant au même plan, et est coloré de la même manière dans cette illustration, p.73

. .. La-longueur-de-la-séquence-entière, 11 (a) Illustration avec K=4 vecteurs formés à partir des douze articulations sélectionnées. (b) Illustration de la progression des quatre vecteurs amorphologiques. (c) Assemblage temporel des quatre trajectoires amorpholgiques pour former un pattern multistrokes 3D, Illustration du partitionnement temporel adopté dans notre représentation. L'extraction des descripteurs au i ` eme niveau couvre les T 3 i trames de la séquence, vol.76

, Illustration des vecteurs de départ et de fin pour un pattern à quatre strokes, p.79

, Illustration du vecteur reliant les premier et dernier points, p.80

, Illustration du vecteur reliant les premier et dernier points, p.81

. , Illustration de la boite englobante du pattern 3D, avec une hauteur h, une largeur w et une profondeur d

, Illustration de la construction d'un histogramme de zoning 3D flou, p.86

. , Prendre milieu" et "Prendre haut" qui présentent des propriétés spatiales très similaires, Illustration des trois classes d'actions "Prendre bas

. , Claque paume" et "Claque revers" qui produisent le même pattern mais sont temporellement symétriques, Illustration des deux classes d'actions

, HDM05 : Illustration de quatre classes d'actions de la base HDM05 qui présentent de fortes similitudes dont d'une part "courir sur place" et "courir en demi-cercle

, Table des figures 193

. , Illustration (a) d'une action pré-segmentée qui correspond au pattern reçu en entrée par une approche de reconnaissance d'actions pré-segmentées et (b) d'un flot d'actions non segmenté utilisé pour une approche OAD. Dans cet exemple, il est constitué de trois performances

. , Illustration via la trajectoire d'une seule articulation (a) de la variabilité spatiale inter-classes entre deux classes Ci et Cj et (b) de la variabilité spatiale intra-classe

. Vue-d'ensemble-de, Cette approche est composée de trois étapes, de sorte qu'à chaque étape une des difficultés OAD est abordée. La variabilité temporelle est considérée à la première étape. La variabilité spatiale inter-classes est abordée à la deuxième étape. La variabilité spatiale intra-classe est abordée à la dernière étape, p.105

. , Nous considérons le mouvement extrait avec ces deux fenêtres à la trame 9 pour deux instances de la même classe. Ces deux instances sont effectuées à des vitesses différentes. Le rectangle gris représente une fenêtre temporelle et le rectangle jaune représente la fenêtre curviligne

. , En outre, les blocs 'B' et 'C' ont en charge de traiter les classes prédites brutes et de combiner les décisions des différents classifieurs, respectivement. Le symbole ' ?' signifie qu'aucune classe n'est prédite, alors que G1, Aperçu du fonctionnement global du système proposé. Ce système est composé de classifieurs curvilignes, un pour chaque taille curviligne. Différents classifieurs curvilignes extraient des descripteurs sur différentes fenêtres curvilignes

. , Illustration du fonctionnement de l'histogramme local avec trois classes aux trames 4, 5, 6 et 7. ? et ? symbolisent respectivement une augmentation et une diminution du score

. , C2 et C3 qui peuvent prédire la classe G1, G2 ou G3. Chaque classifieur Ci possède trois seuils ? i,1 , ? i,2 et ? i,3 relatifs à la prédiction des trois classes G1, G2 et G3, Illustration du fonctionnement de l'histogramme global à la trame 7 avec trois classifieurs C1

, Processus de décision adapté pour la reconnaissance d'actions pré-segmentées, Chapitre, vol.116

. , Illustration du traitement d'un flot d'entrée par les trois modèles curvilignes à court, moyen et long terme

O. and M. , Courbe cumulée des scores de détection en fonction de la distance au point d'action. 0 correspond au fait que le point d'action utilisé est celui initialement fourni avec la base

O. and M. , Illustration de deux cas d'erreur de détection. La première ligne contient des trames d'une classe G9. Les deuxième et troisième rangées contiennent des trames de la même classe G1. Dans chaque rangée

O. and M. , Variation de la performance globale obtenue avec l'approche CuDi3D en fonction du pourcentage des tailles curvilignes, p.128

G. Oad, Illustration de classes d'actions "coup de poing à droite

M. ;. Oad, Illustration des classes d'actions "s'accroupir", "coups de pieds de côté" et "dribbler" appartenant à la base MAD, p.132

M. Oad, Résultats de la détection d'actions (séquence-1 de sujet-1) pour la méthode SMMED [HYWDLT14] (deuxième rangée), la méthode MS (troisième rangée) et notre méthode CuDi3D (quatrième rangée) par rapport aux annotations de la vérité terrain (première rangée)

, MSRC-12 : Résultats obtenus pour 20 trames avant les points d'actions sur la base MSRC-12 en détection précoce simplifiée. L'évaluation est menée sur six classes d'actions suivant le protocole leave-subjects-out. E-CuDi3D = notre approche, CuDi3D-10 et CuDi3D100 sont les modèles à 10% et 100% de tailles curvilignes

, CSTM = Clustered Spatio-Temporal Manifolds

R. Forests, , vol.17

=. Adab and . Adaboost, DFS = Dynamic Feature Selection

. , MSRC-12 : Résultats obtenus pour 20 trames avant les points d'action sur la base MSRC-12 en détection précoce, p.139

. , 1 (a) Articulations sélectionnées pour notre représentation du geste dynamique de la main. (b) Illustration d'un pattern 3D multistrokes résultant de l'ensemble des trajectoires des doigts, vol.5

. , Illustration des séquences considérées pour extraire notre représentation sur deux niveaux temporels

, Illustration avec trois trajectoires (strokes) des patterns 3D issus du découpage temporel à deux niveaux d'une séquence de geste de la main, p.146

. , Illustration du tracé d'une ligne effectué avec une main. (b) Geste de zoom effectué avec deux mains

. , Deux images d'une main illustrant le geste de "saisir" effectué (a) avec un doigt et (b) avec la main entière

, Notre matrice de confusion sur la base DHG en utilisant 14 gestes, p.151

, Notre matrice de confusion sur l'ensemble de données LMDHG, p.152

. , Résultats d'animation d'un avatar (à gauche) pour l'action "s'incliner" au moyen de la méthode CuDi3D en détection non-précoce. L'avatar de droite correspond au rejeu des données brutes

. , Résultats d'animation d'un avatar (à gauche) pour l'action "s'incliner" au moyen du mélange des décisions précoces. L'avatar de droite correspond au rejeu des données brutes

, Illustration de trames de la première expérimentation pour trois classes d'actions : un coup de pied (G12), mettre des lunettes (G4) et translater le bras horizontalement (G3), de haut en bas et de gauche à droite. Chaque action est représentée en huit trames réparties sur deux lignes, p.160

, Illustration de trames de la seconde expérimentation pour trois classes d'actions : jeter un objet (G8), soulever les bras en haut (G5) et translater le bras horizontalement (G3), de haut en bas et de gauche à droite. Chaque action est représentée en huit trames réparties sur deux lignes, p.161

. , Tableau récapitulatif des propriétés de la base M2S-dataset en termes de nature des actions, nombre de classes d'actions, nombre de séquences et nombre total des sujets

. Reconnaissance, Comparaison entre les approches 3DMM et HIF3D avec l'approche de [Sor12] sur la base d'actions M2S-dataset en utilisant un classifieur SVM

. , Action en termes de nature des actions, nombre de classes d'actions, nombre de séquences et nombre total des sujets, Tableau récapitulatif des propriétés de la base UTKinect

U. Reconnaissance, Résultats des deux représentations 3DMM et HIF3D et ceux approches précédentes sur la base de données UTKinectAction selon le protocole de LOSeqO. Les taux de reconnaissance pour chaque classe ainsi que le taux global (%) sont donnés, p.92

U. Reconnaissance, Comparaison des résultats des représentations 3DMM et HIF3D avec ceux obtenus par deux approches de l'état de l'art sur la base de données UTKinect-Action

, Tableau récapitulatif des propriétés de la base HDM05 en termes de nature des actions, nombre de classes d'actions, nombre de trames par classe, nombre de séquences par classe et par sujet et nombre total des sujets, p.94

. , Reconnaissance, HDM05 : Résultats expérimentaux des deux représentations 3DMM et HIF3D suivant le protocole proposé par [OCK + 14] sur la base HDM05. Nos deux représentations ont été évaluées avec le classifieur SVM en opérant ou non un découpage temporel (Niveau = 2 et Niveau = 1, respectivement)

, Chapitre 6

O. and M. , Résultats de l'approche CuDi3D et ceux obtenus par les approches de l'état de l'art sur la base de données MSRC-12. L'évaluation est menée dans le contexte OAD, suivant le protocole leave-subjectsout avec une latence de ? = 333ms. La moyenne F score et son écart-type sont indiqués pour chaque modalité d

R. Forests,

O. and M. , Résultats d'une variante temporelle de CuDi3D sur la base de données MSRC-12. L'évaluation est menée dans le contexte OAD, suivant le protocole leave-subjects-out avec une latence de ? = 333ms, p.126

O. and M. , CuDi3D-Min et CuDi3D-Three obtenus sur l'ensemble de données MSRC-12 selon le protocole leave-subjects-out à une latence de ? = 333ms, Résultats expérimentaux de trois variantes de CuDi3D à savoir CuDi3D-Avg

O. and M. , Comparaison des temps de calcul moyens par trame en millisecondes pour différentes approches OAD squelettiques

G. Oad, Résultats de la détection d'actions en-ligne sur la catégorie Combat de la base G3D selon le protocole leave-subjects-out, DFS = Dynamic Feature Selection

R. St, Random Forests using Spatio-Temporal Contexts

G. Oad, Résultats de la détection d'actions en-ligne sur la catégorie Combat de la base G3D selon le protocole de partage fixe proposé dans, vol.12

S. Support, Vector Machine with Sliding Window ; R-SW = Recurrent Neural Network with Sliding Window ; CA-RNN = Classification Alone Recurrent Neural Network ; JCR-RNN = Joint ClassificationRegression Recurrent Neural Network

M. Oad, Comparaison de l'approche CuDi3D avec de précédentes méthodes sur la base de données MAD suivant le protocole à cinq folds

, SMMED = Sequential Max-Margin Event Detectors ; NB = Naive Bayes

, MS = Motion Segments, vol.133

. C. Reconnaissance, Comparaison des résultats de l'approche CuDi3D avec ceux obtenus par les approches de l'état de l'art sur la base de données HDM05-Mocap, selon le protocole proposé dans, p.135

, Liste des tableaux 199

. Reconnaissance, Comparaison des résultats de l'approche CuDi3D avec ceux obtenus par les approches de l'état de l'art sur la base de données MSRC-12, selon une validation croisée à 4 folds

, Liste des classes de gestes de la base de données LMDHG, p.148

. , Tableau récapitulatif des propriétés de la base DHG en termes de nature des actions, étiquette, nombre de classes d'actions, nombre de séquences et nombre total des sujets

, Comparaison entre notre approche et les approches de l'état de l'art en considérant 14 et 28 gestes sur l'ensemble de données DHG, p.151