Deep Neural Architectures for Automatic Representation Learning from Multimedia Multimodal Data

Vedran Vukotic 1
1 LinkMedia - Creating and exploiting explicit links between multimedia fragments
Inria Rennes – Bretagne Atlantique , IRISA_D6 - MEDIA ET INTERACTIONS
Résumé : La thèse porte sur le développement d'architectures neuronales profondes permettant d'analyser des contenus textuels ou visuels, ou la combinaison des deux. De manière générale, le travail tire parti de la capacité des réseaux de neurones à apprendre des représentations abstraites. Les principales contributions de la thèse sont les suivantes: 1) Réseaux récurrents pour la compréhension de la parole: différentes architectures de réseaux sont comparées pour cette tâche sur leurs facultés à modéliser les observations ainsi que les dépendances sur les étiquettes à prédire. 2) Prédiction d’image et de mouvement : nous proposons une architecture permettant d'apprendre une représentation d'une image représentant une action humaine afin de prédire l'évolution du mouvement dans une vidéo ; l'originalité du modèle proposé réside dans sa capacité à prédire des images à une distance arbitraire dans une vidéo. 3) Encodeurs bidirectionnels multimodaux : le résultat majeur de la thèse concerne la proposition d'un réseau bidirectionnel permettant de traduire une modalité en une autre, offrant ainsi la possibilité de représenter conjointement plusieurs modalités. L'approche été étudiée principalement en structuration de collections de vidéos, dons le cadre d'évaluations internationales où l'approche proposée s'est imposée comme l'état de l'art. 4) Réseaux adverses pour la fusion multimodale: la thèse propose d'utiliser les architectures génératives adverses pour apprendre des représentations multimodales en offrant la possibilité de visualiser les représentations dans l'espace des images.
Type de document :
Thèse
Artificial Intelligence [cs.AI]. INSA de Rennes, 2017. English. 〈NNT : 2017ISAR0015〉
Liste complète des métadonnées

Littérature citée [141 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-01629669
Contributeur : Abes Star <>
Soumis le : mercredi 13 décembre 2017 - 11:56:07
Dernière modification le : mardi 22 mai 2018 - 14:56:30

Fichier

THESE_DEF_Vedran_Vukotic_pdfst...
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01629669, version 2

Citation

Vedran Vukotic. Deep Neural Architectures for Automatic Representation Learning from Multimedia Multimodal Data. Artificial Intelligence [cs.AI]. INSA de Rennes, 2017. English. 〈NNT : 2017ISAR0015〉. 〈tel-01629669v2〉

Partager

Métriques

Consultations de la notice

896

Téléchargements de fichiers

408