Unsupervised learning for motion segmentation and motion saliency in videos

Unsupervised learning for motion segmentation and motion saliency in videos
(Apprentissage non supervisé pour la segmentation et la saillance du mouvement dans des vidéos)

Meunier, Étienne - (2023-12-04) / Université de Rennes
Unsupervised learning for motion segmentation and motion saliency in videos

Langue : Anglais
Directeur de thèse: Bouthémy, Patrick
Laboratoire : INRIA-RENNES
Ecole Doctorale : MATISSE

Thématique : Sciences de l'ingénieur

Accès à la ressource :

https://ged.univ-rennes1.fr/nuxeo/site/esupversion...

Mots-clés : segmentation, mouvement, apprentissage non supervisé, flot optique, saillance, Apprentissage non supervisé (intelligence artificielle), Traitement d'images -- Techniques numériques

Résumé : Les contributions de cette thèse sont de deux ordres. Premièrement, nous avons développé une approche non supervisée d'apprentissage profond pour la segmentation du mouvement à partir du flot optique. Nous avons construit à partir de l'algorithme EM une fonction de perte qui implique des modèles de mouvement paramétriques. Nous avons progressivement ajouté de la cohérence temporelle à cette méthode. Avec un triplet de flots en entrée, nous ajoutons un terme de perte imposant des étiquettes cohérentes au sein du triplet. Ensuite, avec des séquences de flot plus longues en entrée, nous définissons une représentation plus fexible du mouvement par splines, et nous nous appuyons sur un transformer pour appréhender des interactions à long terme entre les caractéristiques. Ces méthodes fournissent des résultats compétitifs sur les benchmarks, tout en étant très efficaces en inférence. La deuxième contribution porte sur la localisation des mouvements saillants à partir du flot optique. Nous supposons que les zones saillantes sont celles qui influencent la prédiction d'un réseau pré-entraîné de classification de saillance. Nous exploitons une méthode d'interprétation du réseau de type gradient pour localiser les zones saillantes. Nous avons également conçu une approche alternative par réseau adverse. Nous avons appliqué ces deux méthodes à deux tâches de saillance du mouvement.

Résumé (anglais) : The contributions of this thesis are two-fold. First, we deal with deep learning approaches for fully unsupervised motion segmentation from an optical flow field. We leverage a loss function based on the EM algorithm and involving parametric motion models. We then gradually extend this framework to longer sequences of input flows. With a triplet of input flows, we introduce a loss term enforcing consistent labels within the triplet, and we add long-term temporal consistency with a specific post-processing. Then, we take longer flow sequences as input, and define a spline-based motion representation to handle the evolution of parametric motion over a long time period. In addition, we rely on a transformer decoder to allow interactions between features of the full sequence. These methods provide competitive results on benchmarks, while being very efficient at test time. The second contribution is the localization of salient motions from the optic flow field. In this part, we assume that salients areas are those that influence the output of a pre-trained saliency classification network. We use a gradient-based network interpretation method to localize salient areas. We also design an alternative adversarial approach. We apply both methods on two motion saliency tasks.

Identifiant : rennes1-ori-wf-1-18999

Exporter au format XML