Efficient low-precision training for deep learning training
(Entraînement à basse précision pour les accélérateurs d’apprentissage profond)

Ben Ali, Sami - (2025-04-30) / Université de Rennes - Efficient low-precision training for deep learning training

Langue : Anglais
Directeur de thèse:  Sentieys, Olivier
Laboratoire :  INRIA-RENNES
Ecole Doctorale : MATISSE

Thématique : Informatique
Accès à la ressource : https://ged.univ-rennes1.fr/nuxeo/site/esupversion...

Mots-clés :  Entraînement en basse précision, arithmétique en précision mixte, arrondi stochas- tique, accélérateur d’entraînement de réseaux de neurones basé sur FPGA, Réseaux neuronaux (informatique), Réseaux logiques programmables par l'utilisateur, Apprentissage profond

Résumé : L’entraînement des réseaux neuronaux profonds (DNN) est très gourmand en ressources de calcul, d’où l’intérêt pour l’arithmétique de basse précision afin d’améliorer l’efficacité. Cette thèse explore de nouvelles approches pour permettre un entraînement efficace en basse précision pour les accélérateurs d’apprentissage profond. Tout d’abord, nous présentons MPTorch-FPGA, une extension de l’environnement MPTorch conçue pour faciliter l’entraînement de DNN à faible précision pour des environnements CPU, GPU et FPGA. MPTorch-FPGA peut générer un accélérateur spécifique au modèle pour l’entraînement DNN, avec des tailles et des implémentations arithmétiques personnalisables, offrant une précision au niveau du bit par rapport à l’entraînement DNN émulé sur les GPU ou les CPU. Un algorithme de correspondance hors ligne sélectionne l’une des configurations FPGA pré-générées (statiques) en utilisant un modèle de performance pour estimer la latence. Deuxièmement, nous proposons une unité de multiplication-accumulation (MAC) optimisée, basée sur des arrondis stochastiques et adaptée à l’apprentissage en basse précision. Notre conception utilise un multiplicateur FP8 avec une accumulation FP12 et s’appuie sur une nouvelle implémentation de l’arrondi stochastique dans les additionneurs à virgule flottante, réduisant de manière significative la surface, la consommation d’énergie et le délai par rapport aux implémentations conventionnelles. Ensemble, ces contributions soulignent le potentiel de l’arithmétique personnalisée et de l’entraînement en précision mixte pour améliorer les performances des accélérateurs d’apprentissage profond tout en préservant la précision du modèle.

Résumé (anglais) : Training Deep Neural Networks (DNNs) is computationally intensive, driving interest in low-precision arithmetic to improve efficiency. This thesis explores novel approaches to enable efficient low-precision training for deep learning accelerators. First, we introduce MPTorch-FPGA, an extension of the MPTorch framework designed to facilitate mixed and low-precision DNN training across CPU, GPU, and FPGA environments. MPTorch-FPGA can generate a model-specific accelerator for DNN training, with customizable sizes and arithmetic implementations, providing bit-level accuracy with respect to emulated low-precision DNN training on GPUs or CPUs. An offline matching algorithm selects one of several pre-generated (static) FPGA configurations using a performance model to estimate latency. Second, we propose an optimized stochastic roundingenabled multiply-accumulate (MAC) unit tailored for low-precision training. Our design employs an FP8 multiplier with FP12 accumulation and relies on a novel implementation of stochastic rounding within floating point adders, significantly reducing area, power consumption and delay compared to conventional implementations. Together, these contributions highlight the potential of customized arithmetic and mixed-precision training to enhance deep learning accelerator performance while preserving model accuracy.

Identifiant : rennes1-ori-wf-1-20829
Exporter au format XML