Understanding, taming, and defending from adversarial examples

Understanding, taming, and defending from adversarial examples
(Comprendre, apprivoiser et se protéger des exemples adversaires)

Bonnet, Benoît - (2023-02-06) / Université de Rennes
Understanding, taming, and defending from adversarial examples

Langue : Anglais
Directeur de thèse: Furon, Teddy; Bas, Patrick
Laboratoire : INRIA-RENNES
Ecole Doctorale : MATISSE

Thématique : Informatique

Accès à la ressource :

https://ged.univ-rennes1.fr/nuxeo/site/esupversion...

Mots-clés : Réseaux de Neurones Artificiels, Exemples Adversaires, Sécurité, Réseaux neuronaux (informatique), Systèmes informatiques -- Mesures de sûreté

Résumé : L'Intelligence Artificielle est une discipline qui a connu un fort essor au cours de ces dernières années, notamment en Vision par Ordinateur où l'application la plus commune est la classification d'image. Aujourd'hui, les réseaux de neurones artificiels profonds sont d’excellents classifieurs inférant ce que représente une image. Des travaux ont cependant rapidement montré qu’ils sont vulnérables aux attaques par évasion, aussi appelés les exemples adverses. Ces exemples sont des images qui pour un humain semblent être une représentation normale d'un objet. Mais le classifieur attaqué ne parviendra pas à prédire correctement ce qu'elles représentent. Cette thèse étudie les mécanismes de création de ces exemples, la raison de leur existence et la vulnérabilité des classifieurs. En particulier, ce travail replace ces exemples adverses dans un contexte réaliste. Premièrement, il propose des attaques rapides même sur des grandes images avec un fort taux de succès et une distortion imperceptible ou indétectable. Deuxièmement, il ajoute la contrainte que les exemples adversaires sont avant tout des images, c’est à dire des signaux quantifiés dans le domaine spatial (format PNG) ou dans le domaine DCT (format JPEG).

Résumé (anglais) : Artificial Intelligence is nowadays one of the most essential disciplines of computer science. These algorithms perform particularly well on Computer Vision tasks, especially classification. A classifier infers what an image represents. Nowadays Deep Neural Networks are largely used for these problems. These neural networks first undergo a training phase during which they are given many examples. These images are accompanied by labels: information on what the image represents. However, it was quickly found that the same logic used during the training phase could be used maliciously. This is the creation of Adversarial Examples through an Evasion Attack. Such examples are seemingly normal images. A human understands what it represents as if it was not manipulated. But the attacked classifier will make an incorrect prediction. In this manuscript, we study the creation of such examples, the reason for their existence, and the underlying vulnerability of classifiers. In particular, we study these examples in a realistic context. First, attacks are optimized (high success rate and low distortion). Second, we add the constraint that adversarial examples should be images. We thus work on spatially-quantized (PNG) or DCT-quantized images (JPEG).

Identifiant : rennes1-ori-wf-1-17665

Exporter au format XML