Overview de toutes les approches d'explicabilité des LLMs

Nous identifions 4 familles d’approches d’explicabilité des LLMs:

celles de “training data attribution”, identifiant les données d’entraînement qui ont un fort impact (positif ou négatif) sur la génération du LLM, à l’aides des fonctions d’influence, décrites en détail dans ce post,
celles de “context attribution”, identifiant quelles parties des données d’entrée (input) a un impact sur quelle partie de la génération du LLM (à l’aide des cartes de saillance et des cartes d’attention notamment),
celles d’explicabilité mécanistique (model inference), consistant à trouver les circuits dans le LLM qui capturent certains concepts, avec des circuits identifiés par approches d’observation de l’espace latent (ACP sur les états cachés du LLM à différents niveaux du réseau), de dictionnary learning pour visualiser quels concepts sont capturés par chaque neurones / groupes de neurones, ou par “patching”, en modifiant certains états cachés pour voir l’effet sur le modèle.
On peut considérer également une 4ème famille d’approches en étudiant la génération des modèles, notamment des modèles dits de “raisonnement” (thinking) qui détaillent leur raisonnement dans la réponse qu’ils fournissent.

Ces 4 familles sont détaillées dans le papier Interpretation Meets Safety: A Survey on Interpretation Methods and Tools for Improving LLM Safety:

Explicabilité par Training Data Attribution

Attribution basée sur la représentation

Compare la similarité entre les vecteurs latents de chaque exemple d’entraînement et la sortie

Références : Yeh et al. (2018), Tsai et al. (2023), Su et al. (2024b), He et al. (2024b)
Limitation : N’établit pas de causalité (Cheng et al., 2025a)

Méthodes basées sur le gradient

Estiment la sensibilité des paramètres du modèle aux exemples individuels

TracIn (Pruthi et al., 2020) : Trace l’influence en mesurant l’alignement entre les gradients
Variantes améliorées :
Han & Tsvetkov (2021, 2022)
Yeh et al. (2022)
Wu et al. (2022)
Ladhak et al. (2023)
Adaptations pour LLM : Xia et al. (2024), Pan et al. (2025b)

Méthodes basées sur les fonctions d’influence

Estiment comment la pondération d’un exemple affecte les paramètres et prédictions

Améliorations de scalabilité :
Han et al. (2020)
Ren et al. (2020)
Barshan et al. (2020)
Guo et al. (2021)
Extensions aux LLM : Grosse et al. (2023), Kwon et al. (2024), Choe et al. (2024)
Débat : Efficacité contestée due aux hypothèses fortes (convexité du modèle)

Data Shapley

Estime la contribution en approximant l’effet de suppression/ajout de données

Références : Ghorbani & Zou (2019), Jia et al. (2019), Feldman & Zhang (2020)
Applications LLM : Wang et al. (2024b, 2025a)
Limitation : Coût computationnel élevé, limité aux petits modèles

Les limites de ces approches TDA sont:

Inaccessibilité des données d’entraînement propriétaires (Bommasani et al., 2021)
Scalabilité computationnelle

Explicabilité par Context Attribution

Attribuer les sorties du modèle à des tokens d’entrée spécifiques pour comprendre leur influence.

Dans ce papier: A Close Look at Decomposition-based XAI-Methods for Transformer Language Models, 2025, ils comparent plusieurs approches:

Méthodes basées sur l’attention

Poids d’attention plus élevés = plus grande importance

Références fondamentales :
Wiegreffe & Pinter (2019)
Abnar & Zuidema (2020)
Kobayashi et al. (2020)
Agrégation : Moyenne, max (Tu et al., 2021), attention rollout (Abnar & Zuidema, 2020)
Applications sécurité : Détection d’hallucinations (Dale et al., 2023; Chuang et al., 2024)

Ces approches basées sur l’attention peuvent être utilisées pour “forcer” le modèle à porter / ne pas porter leur attention sur certains tokens:

Incitation des LLM à porter attention aux tokens de sécurité
Suppression des tokens déclencheurs de jailbreak (Pan et al., 2025a)
Manipulation de l’attention vers tokens fiables (Zhang et al., 2024b)

Méthodes basées sur les vecteurs

Décomposent les vecteurs latents en contributions des tokens d’entrée (ACP)

Applications LLM modernes : Arras et al., A Close Look at Decomposition-based XAI-Methods for Transformer Language Models, 2025

Limitation : Nécessitent des conceptions spécifiques au modèle

Méthodes basées sur la perturbation

Modifient les tokens et observent les changements

Types de perturbations :
Altération de vecteurs latents Deiseroth et al., AtMan: Understanding Transformer Predictions Through Memory Efficient Attention Manipulation, 2023
Masquage d’embeddings Jacovi et al., Contrastive Explanations for Model Interpretability, 2021

Méthodes basées sur le gradient

Calculent le gradient de la sortie par rapport aux embeddings d’entrée

Évolution :
Modèles classiques : Simonyan et al. (2014), Bach et al. (2015)
LLM : Barkan et al., Improving LLM Attributions with Randomized Path-Integration, 2024, Pan et al., The Hidden Dimensions of LLM Alignment: A Multi-Dimensional Analysis of Orthogonal Safety Directions, 2025

Voir le code: https://github.com/BMPixel/safety-residual-space/blob/main/src/experiments/plrp_relevance_tokens.py:

Explications contrastives : Jacovi et al. (2021), Sarti et al. (2024)

2.5 Autres approches

Similarité : Comparaison embeddings finaux/tokens d’entrée Ferrando et al., Measuring the Mixing of Contextual Information in the Transformer, 2022 avec leur approche ALTI:

Basées sur les prompts : Instructions aux LLM pour identifier les tokens influents Wang et al., DELMAN: Dynamic Defense Against Large Language Model Jailbreaking with Model Editing, 2025

Optimisation : Recherche d’attributions maximisant les métriques d’interprétabilité Zhou & Shah, The Solvability of Interpretability Evaluation Metrics, 2023

Explicabilité mécanistique: comprendre quelle partie du LLM est responsable de quel concept

Le papier Open Problems in Mechanistic Interpretability

Sondes sur l’espace latent

Projection de l’espace latent calculé sur différents concepts.

Hypothèse de base : Représentation linéaire - les concepts sont encodés comme directions linéaires (cf ACP).

Méthodes principales :

Vecteurs moyens : Calcul pour données avec/sans concept spécifique
Applications : hallucinations (Liu et al., On the Universal Truthfulness Hyperplane Inside LLMs, 2024), jailbreaks (Arditi et al. Refusal in Language Models Is Mediated by a Single Direction, 2024)
Réduction dimensionnelle : PCA, SVD pour découvrir les axes de comportements non sûrs
Références : Duan et al., Do LLMs Know about Hallucination? An Empirical Investigation of LLM’s Hidden States, Ball et al. (2024), Pan et al. (2025a)
Classificateurs de sondage : Prédiction de propriétés liées à la sécurité
Succès : Détection d’hallucinations Burns et al., Discovering Latent Knowledge in Language Models Without Supervision, 2022, Truth is Universal: Robust Detection of Lies in LLMs, Bürger et al., 2024, jailbreaks Zhou et al., How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States, 2024,
Améliorations : Classificateurs non-linéaires (Azaria & Mitchell, 2023), apprentissage contrastif (He et al., 2024a)

Exemple de Truth is Universal: Robust Detection of Lies in LLMs, Bürger et al., 2024 pour détecter les hallucinations du modèle ou quand le modèle “ment”: Ils font une ACP pour essayer de prouver qu’une partie du réseau encode les faits vrais (que le modèle a appris) et faux (que le modèles n’a pas appris):

En gros ils font l’ACP sur les activations du dernier token de chaque phrases (le “.”). puisque le modèle est autorégressif, ce dernier token encode la globalité de la phrase. Pour un modèle non-autorégressif, comme BERT, on pourrait faire ça sur le token [CLS] par exemple, qui a le même rôle normalement (utilisé d’ailleurs pour la classification). Et ils ont affiché les activations sur un ensemble de données comptenant des phrases vraies (violet) et fausses (jaunes), qu’ils avaient taggé au préalable.

Et dans ce papier, ils voient que c’est la layer 12 qui sépare le mieux les faits “vrais” et “faux”, ie appris et non appris:

Cet autre papier Liu et al., On the Universal Truthfulness Hyperplane Inside LLMs, 2024 propose cette analyse:

Cette approche d'explicabilité permet de "corriger" le modèle, notamment en dirigeant les Vecteurs Latents:

Ingénierie de représentation : ajout de vecteurs de sécurité identifiés
Applications : hallucinations Li et al., Inference-Time Intervention: Eliciting Truthful Answers from a Language Model, 2023, jailbreaks Turner et al.,Steering Language Models With Activation Engineering, 2023

Exemple des figures de ces papiers pour “corriger” le modèle selon ces direction:

Le papier Inference-Time Intervention: Eliciting Truthful Answers from a Language Model propose cette approche:

Le papier Steering Language Models With Activation Engineering propose cette approche:

Le papier Refusal in Language Models Is Mediated by a Single Direction qui corrige les poids du modèle de la direction $r$ identifiée comme générant des jailbreaks : $x’ = x - rr^Tx$. L’ablation directionnelle « met à zéro » la composante suivant $r$ pour chaque activation du flux résiduel $x \in \mathbb{R}^{d_{\text{model}}}$.

Perturber certains neurones / couches et Évaluer l’Impact

Analyse basée sur le gradient

Calcul des gradients de sortie par rapport aux paramètres
Applications : Conflits de connaissances RAG (Jin et al., 2024), générations biaisées (Liu et al., 2024b)

Knockout de composants

Ablation de couches, têtes d’attention ou paramètres
Localisation de composants responsables :
Hallucinations : Jin et al. (2024), Li et al. (2024a)
Jailbreaks : Zhao et al. (2024d), Wei et al. (2024)
Biais : Yang et al. (2023b), Ma et al. (2023)

Patching d’activation

Inspiré de l’analyse de médiation causale (Pearl, 2001)
Remplacement d’activations intermédiaires
Applications : Hallucinations (Monea et al., 2024), biais (Vig et al., 2020)

Circuits computationnels

Extraction de graphes : nœuds = composants, arêtes = flux d’information
Références : Geiger et al. (2021), Elhage et al. (2021)
Path patching : Wang et al. (2023), Goldowsky-Dill et al. (2023)

Déchiffrer les Vecteurs Latents à partir de concepts

Analyse des neurones individuels

Identification des entrées activant fortement un neurone
Références : Geva et al. (2021), Foote et al. (2023)
Défi : Polysémantique des neurones (Arora et al., 2018)

Autoencodeurs épars (SAE)

Objectif : Désentrelement des concepts superposés
Architecture : Encodeur → vecteur épars de concepts → Décodeur
Références clés :
Fondamentaux : Sharkey et al. (2022), Bricken et al. (2023)
Améliorations : Rajamanoharan et al. (2024a), Templeton et al. (2024)
Applications sécurité :
Hallucinations : Ferrando et al. (2025), Theodorus et al. (2025)
Jailbreaks : Härle et al. (2024), Muhamed et al. (2025)
Biais : Hegde (2024), Zhou et al. (2025a)

Logit lens

Projection des vecteurs latents intermédiaires sur l’espace vocabulaire
Origine : nostalgebraist (2020), Elhage et al. (2021)
Améliorations : Belrose et al. (2023), Din et al. (2023)
Applications : Mécanismes de stockage/rappel (Yu et al., 2023), hallucinations (Yu et al., 2024b)

Ces approches permettent de “corriger” le modèle, par exemple en supprimant de neurones risqués via SAE (Soo et al., 2025).

Explicabilité par Génération de Raisonnement du LLM

Explorer comment les LLM peuvent interpréter leurs propres sorties en exprimant le raisonnement sous-jacent.

Raisonnement en génération**

LLM incités/entraînés à générer réponses + justifications
Références fondamentales :
Camburu et al. (2018)
Rajani et al. (2019)
Marasovic et al. (2022)
Estimations d’incertitude : Kadavath et al. (2022), Amayuelas et al. (2024)

Chain-of-Thought (CoT)

Génération d’étapes de raisonnement intermédiaires

Référence originale : Wei et al. (2022)
Variantes :
Raisonnement complexe : Yao et al. (2023), Besta et al. (2024)
Amélioration de la fidélité : Qu et al. (2022), Lyu et al. (2023)
Limitations : Explications peu fiables (Gao et al., 2023), nécessitant vérification (Weng et al., 2023)

Explications post-hoc

Évaluation/explication après génération
Division des réponses en affirmations factuelles
Vérification contre les connaissances du modèle
Applications : Hallucinations (Dhuliawala et al., 2024), biais (Li et al., 2024b)

Explicabilité par Training Data Attribution

Attribution basée sur la représentation

Méthodes basées sur le gradient

Méthodes basées sur les fonctions d’influence

Data Shapley

Explicabilité par Context Attribution

Méthodes basées sur l’attention

Méthodes basées sur les vecteurs

Méthodes basées sur la perturbation

Méthodes basées sur le gradient

Explicabilité mécanistique: comprendre quelle partie du LLM est responsable de quel concept

Sondes sur l’espace latent

Perturber certains neurones / couches et Évaluer l’Impact

Déchiffrer les Vecteurs Latents à partir de concepts

Explicabilité par Génération de Raisonnement du LLM

Raisonnement en génération**

Chain-of-Thought (CoT)

Explications post-hoc

Enjoy Reading This Article?