Compression audio monocanal par apprentissage profond

Compression audio monocanal par apprentissage profond
(Mono audio coding with deep learning)

Muller, Thomas - (2025-12-11) / Université de Rennes - Compression audio monocanal par apprentissage profond

Langue : Français
Directeur de thèse: Scalart, Pascal
Laboratoire : IRISA
Ecole Doctorale : MATISSE

Thématique : Sciences de l'ingénieur

Accès à la ressource :

https://ged.univ-rennes1.fr/nuxeo/site/esupversion...

Mots-clés : codage audio neuronal, qualité audio, quantification espace latent, Compression audio, Réseaux neuronaux (informatique), Apprentissage profond

Résumé : Le domaine de la compression audio, au cœur des applications de transmission et de stockage de la parole, musique et audio général, est bouleversé depuis quelques années par l'utilisation des réseaux de neurones artificiels. La nouvelle génération de codecs qui en découle, les codecs audio neuronaux, démontre des performances très prometteuses, en particulier par leur capacité à compresser à très bas débit. Dans cette thèse nous nous intéressons au potentiel des codecs audio neuronaux selon deux angles principaux. Le premier concerne la qualité audio permise par ces codecs et les moyens de la mesurer. Nous proposons des caractérisations étendues de la qualité des codecs neuronaux sur la parole ainsi que la musique et le contenu mixte parole/musique. Ces résultats issus de tests subjectifs sont également employés pour évaluer l'estimation de qualité proposée par les outils de mesure automatique que sont les métriques objectives. Le second axe de travail est dédié à l'analyse et la quantification de l'espace latent des codecs audio neuronaux. Une étude de l'espace latent appris par un codec neuronal nous permet d'optimiser l'étage de quantification du codec. Enfin, nous explorons l'utilisation de la quantification vectorielle sphérique par réseau de points dans le cadre du codage audio neuronal et montrons qu'il s'agit d'une alternative avantageuse d'un point de vue apprentissage, complexité calculatoire et stockage mémoire.

Résumé (anglais) : The field of audio coding, which lies at the heart of applications for transmitting and storing speech, music, and general audio, has been revolutionized in recent years by the use of artificial neural networks. The resulting new generation of codecs, known as neural audio codecs, show very promising performance, particularly in terms of their ability to compress at very low bit rates. In this thesis, we examine the potential of neural audio codecs from two main angles. The first deals with the audio quality enabled by these codecs and the means of measuring it. We propose extensive evaluations of the quality of neural codecs for speech, music, and mixed speech/music content. These subjective tests are also used to evaluate the quality estimates provided by objective models for automatic measurement. The second area of work is dedicated to the analysis and quantization of neural audio codecs latent space. A study of the latent space learned by a neural codec allows us to optimize the quantization stage of the codec. Finally, we explore the use of spherical lattice vector quantization in the context of neural audio coding and show that it is an advantageous alternative in terms of training, computational complexity and memory storage.

Identifiant : rennes1-ori-wf-1-21587

Exporter au format XML