Beyond divination : stabilizing the interpretability of machine learning algorithms

Version imprimable

Beyond divination : stabilizing the interpretability of machine learning algorithms
(Dépasser la divination : stabiliser l'interprétabilité des algorithmes d'apprentissage automatique)

Kelodjou Nguenang, Zeinabou Gwladys - (2026-01-23) / Université de Rennes
Beyond divination : stabilizing the interpretability of machine learning algorithms

Langue : Anglais
Directeur de thèse: Termier, Alexandre
Laboratoire : IRISA
Ecole Doctorale : MATISSE

Thématique : Informatique

Accès à la ressource :

https://ged.univ-rennes1.fr/nuxeo/site/esupversion...

Mots-clés : Apprentissage Automatique, Explicabilité, Méthodes d’attribution, Valeur de Shapley, Stabilité, Apprentissage automatique, Valeur de Shapley

Résumé : Les modèles d’apprentissage automatique présentent des mécanismes de décision souvent opaques et incompréhensibles, ce qui limite leur utilisation dans des domaines sensibles où les prédictions doivent être justifiées pour être exploitables. Les méthodes d’explicabilité visent à rendre ces décisions plus compréhensibles, notamment à travers des techniques d’attribution locales qui expliquent une prédiction en quantifiant l’influence de chaque variable d’entrée à l’aide de scores d’importance. Les approches fondées sur la valeur de Shapley sont largement utilisées dans ce cadre en raison de leurs garanties théoriques, mais leur calcul exact est généralement intractable et repose, le plus souvent, sur des méthodes d’estimation stochastiques. La stochasticité de ces méthodes engendre une variabilité des explications : une même instance peut recevoir des attributions différentes d’une exécution à l’autre, révélant un manque de stabilité qui fragilise la confiance accordée aux explications. Cette thèse propose ST-SHAP, une méthode visant à améliorer la stabilité en réduisant l’impact du hasard dans l’estimation, ainsi que StratoSHAP, une famille de méthodes d’attribution déterministes éliminant entièrement l’aléatoire. Ces contributions permettent de produire des explications plus stables et fiables pour l'analyse des décisions des modèles d'apprentissage automatique.

Résumé (anglais) : Machine learning models achieve increasingly strong predictive performance, yet their decision processes often remain opaque, limiting their deployment in sensitive and high-stakes settings where predictions must be explained to be trusted and used. Explainability methods aim to make model behavior more understandable, notably through local feature attribution techniques that define the explanation of a given prediction by assigning importance values to the input variables. Shapley-value-based approaches are widely adopted in this context due to their strong theoretical guarantees; however, exact Shapley values are generally intractable and therefore require estimation. In practice, most existing methods rely on stochastic sampling procedures, whose inherent randomness introduces variability in the resulting explanations. This variability compromises stability and may cause identical inputs to receive different feature importance values, thereby undermining the reliability of the results. This thesis addresses this limitation by introducing ST-SHAP, a method that improves stability by reducing the impact of randomness in the estimation process, and StratoSHAP, a family of deterministic feature attribution methods that eliminate randomness entirely. Together, these contributions provide more stable feature attributions and enable more reliable analysis of machine learning model outputs.

Identifiant : rennes1-ori-wf-1-22139

Exporter au format XML