Multispectral object detection

Multispectral object detection
(Détection d'objets multispectraux)

Zhang, Heng - (2021-12-14) / Universite de Rennes 1
Multispectral object detection

Langue : Anglais
Directeur de thèse: Fromont, Élisa; Lefèvre, Sébastien
Laboratoire : IRISA
Ecole Doctorale : MATHSTIC

Thématique : Informatique

Accès à la ressource :

https://ged.univ-rennes1.fr/nuxeo/site/esupversion...

Mots-clés : Détection d'objets, fusion multispectrales, distillation de connaissances, apprentissage actif, Reconnaissance d'objets (informatique), Imagerie multispectrale, Apprentissage automatique

Résumé : L'analyse de scène avec uniquement des caméras visibles est difficile en cas d'éclairage insuffisant ou de mauvais temps. Pour améliorer la fiabilité de la reconnaissance, les systèmes multispectraux introduisent des caméras thermiques supplémentaires et effectuent la détection d'objets à partir de données multispectrales. Bien que le concept d'analyse de scène multispectrale avec apprentissage profond ait un grand potentiel, il n'a pas été étudié en profondeur dans la communauté des chercheurs, ni largement déployé dans le contexte industriel. Dans cette thèse, nous avons étudié trois défis principaux concernant la détection d'objets multispectraux: (1) la détection rapide et précise d'objets d'intérêt à partir d'images ; (2) la fusion dynamique et adaptative d'informations provenant de différentes modalités ; (3) la détection d'objets multispectraux à faible coût et à faible énergie et la réduction de ses efforts d'annotation manuelle. En ce qui concerne le premier défi, nous optimisons d'abord l'attribution des étiquettes de l'entraînement de la détection d'objets en introduisant la stratégie de guidage mutuel entre les tâches de classification et de localisation; nous réalisons ensuite une compression efficace des modèles de détection d'objets en incluant les désaccords de prédiction enseignant-étudiant dans le cadre de distillation des connaissances basé sur les caractéristiques. En ce qui concerne le deuxième défi, trois schémas de fusion de caractéristiques multispectrales différents sont proposés pour traiter les cas de fusion les plus difficiles où différentes caméras fournissent des informations contradictoires. Pour le troisième défi, un nouveau cadre de distillation de modalité est d'abord présenté pour aborder les contraintes matérielles et logicielles des systèmes multispectraux actuels; Ensuite, une stratégie d'apprentissage actif basée sur plusieurs capteurs est conçue pour réduire les coûts d'étiquetage lors de la construction d'ensembles de données multispectrales.

Résumé (anglais) : Scene analysis with only visible cameras is challenging when facing with insufficient illumination or adverse weather. To improve the recognition reliability, multispectral systems introduce additional thermal cameras and perform object detection from multispectral data. Although the concept of multispectral scene analysis with deep learning has great potential, it has not been thoroughly studied in the research community, nor been widely deployed under the industrial context. In this thesis, we investigated three main challenges about multispectral object detection: (1) the fast and accurate detection of objects of interest from images; (2) the dynamic and adaptive fusion of information from different modalities; (3) low-cost and low-energy multispectral object detection and the reduction of its manual annotation efforts. In terms of the first challenge, we first optimize the label assignment of the object detection training via introducing the mutual guidance strategy between classification and localization tasks; we then realizes an efficient compression of object detection models by including the teacher-student prediction disagreements in the feature-based knowledge distillation framework. With regard to the second challenge, three different multispectral feature fusion schemes are proposed to deal with the most difficult fusion cases where different cameras provide contradictory information. For the third challenge, a nouvel modality distillation framework is firstly presented to tackle the hardware and software constraints of current multispectral systems; then a multi-sensor based active learning strategy is designed to reduce the labelling costs when constructing multispectral datasets.

Identifiant : rennes1-ori-wf-1-16027

Exporter au format XML