Apprentissage supervisé d’une représentation multi-couches à base de dictionnaires pour la classification d’images et de vidéos

Résumé : Ces dernières années, de nombreux travaux ont été publiés sur l'encodage parcimonieux et l'apprentissage de dictionnaires. Leur utilisation s'est initialement développée dans des applications de reconstruction et de restauration d'images. Plus récemment, des recherches ont été réalisées sur l'utilisation des dictionnaires pour des tâches de classification en raison de la capacité de ces méthodes à chercher des motifs sous-jacents dans les images et de bons résultats ont été obtenus dans certaines conditions : objet d'intérêt centré, de même taille, même point de vue. Cependant, hors de ce cadre restrictif, les résultats sont plus mitigés. Dans cette thèse, nous nous intéressons à la recherche de dictionnaires adaptés à la classification. Les méthodes d'apprentissage classiquement utilisées pour les dictionnaires s'appuient sur des algorithmes d'apprentissage non supervisé. Nous allons étudier ici un moyen d'effectuer l'apprentissage de dictionnaires de manière supervisée. Dans l'objectif de pousser encore plus loin le caractère discriminant des codes obtenus par les dictionnaires proposés, nous introduisons également une architecture multicouche de dictionnaires. L'architecture proposée s'appuie sur la description locale d'une image en entrée et sa transformation grâce à une succession d'encodage et de traitements, et fournit en sortie un ensemble de descripteurs adaptés à la classification. La méthode d'apprentissage que nous avons développé est basée sur l'algorithme de rétro-propagation du gradient permettant un apprentissage coordonné des différents dictionnaires et une optimisation uniquement par rapport à un coût de classification. L’architecture proposée a été testée sur les bases de données d’images MNIST, CIFAR-10 et STL-10 avec de bons résultats par rapport aux autres méthodes basées sur l’utilisation de dictionnaires. La structure proposée peut être étendue à l’analyse de vidéos.
Type de document :
Thèse
Traitement du signal et de l'image. Université Grenoble Alpes, 2016. Français. 〈NNT : 2016GREAT089〉
Liste complète des métadonnées

Littérature citée [104 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-01525825
Contributeur : Abes Star <>
Soumis le : lundi 22 mai 2017 - 12:41:40
Dernière modification le : lundi 9 avril 2018 - 12:22:15
Document(s) archivé(s) le : mercredi 23 août 2017 - 15:33:31

Fichier

CHANWAITIM_2016_diffusion.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01525825, version 1

Collections

Citation

Stefen Chan Wai Tim. Apprentissage supervisé d’une représentation multi-couches à base de dictionnaires pour la classification d’images et de vidéos. Traitement du signal et de l'image. Université Grenoble Alpes, 2016. Français. 〈NNT : 2016GREAT089〉. 〈tel-01525825〉

Partager

Métriques

Consultations de la notice

281

Téléchargements de fichiers

421