Robust image representation for classification, retrieval and object discovery (Représentation robuste d'images pour les tâches de classification d'images, de recherche d'images et de découverte d'objets dans une image) | ||
Siméoni, Oriane - (2020-03-31) / Universite de Rennes 1 Robust image representation for classification, retrieval and object discovery Langue : Anglais Directeur de thèse: Gravier, Guillaume; Avrithis, Yannis Laboratoire : INRIA-RENNES Ecole Doctorale : MATHSTIC Thématique : Informatique | ||
Mots-clés : Vision par ordinateur, représentation d'image, localisation d'objets dans une image, Vision par ordinateur Résumé : Les réseaux de neurones convolutifs (CNNs) ont été exploités avec succès pour la résolution de tâches dans le domaine de la vision par ordinateur tels que la classification, la segmentation d'image, la détection d'objets dans une image ou la recherche d'images dans une base de données. Typiquement, un réseau est entraîné spécifiquement pour une tâche et l'entraînement nécessite une très grande quantité d'images annotées. Dans cette thèse, nous proposons des solutions pour extraire le maximum d'information avec un minimum de supervision. D'abord, nous nous concentrons sur la tâche de classification en examinant le processus d'apprentissage actif dans le contexte de l'apprentissage profond. Nous montrons qu'en combinant l'apprentissage actif aux techniques d'apprentissage semi-supervisé et non supervisé, il est possible d'améliorer significativement les résultats. Ensuite, nous étudions la tâche de recherche d'images dans une base de données et nous exploitons les informations de localisation spatiale disponible directement dans les cartes d'activation produites par les CNNs. En première approche, nous proposons de représenter une image par une collection de caractéristiques locales, détectées dans les cartes, qui sont peu coûteuses en terme de mémoire et assez robustes pour effectuer une mise en correspondance spatiale. Alternativement, nous découvrons dans les cartes d'activation les objets d'intérêts des images d'une base de données et nous structurons leurs représentations dans un graphe de plus proches voisins. En utilisant la mesure de centralité du graphe, nous sommes capable de construire une carte de saillance, par image, qui met en lumière les objets qui se répètent et nous permet de construire une représentation globale qui exclue les objets non pertinents et d'arrière-plan. Résumé (anglais) : Neural network representations proved to be relevant for many computer vision tasks such as image classification, object detection, segmentation or instance-level image retrieval. A network is trained for one particular task and requires a large number of labeled data. We propose in this thesis solutions to extract the most information with the least supervision. First focusing on the classification task, we examine the active learning process in the context of deep learning and show that combining it to semi-supervised and unsupervised techniques boost greatly results. We then investigate the image retrieval task, and in particular we exploit the spatial localization information available ``for free'' in CNN feature maps. We first propose to represent an image by a collection of affine local features detected within activation maps, which are memory-efficient and robust enough to perform spatial matching. Then again extracting information from feature maps, we discover objects of interest in images of a dataset and gather their representations in a nearest neighbor graph. Using the centrality measure on the graph, we are able to construct a saliency map per image which focuses on the repeating objects and allows us to compute a global representation excluding clutter and background. Identifiant : rennes1-ori-wf-1-13551 |
Exporter au format XML |