Comment un LLM décide-t-il quelles sources citer ?

Les LLM ne citent pas des sources au sens strict — ils génèrent des réponses à partir de patterns appris lors de leur entraînement sur le web. Les entités (entreprises, produits, concepts) fréquemment associées à une catégorie de requêtes dans les données d'entraînement ont une probabilité plus élevée d'apparaître dans les réponses. Les systèmes RAG (Perplexity, ChatGPT avec browsing) ajoutent une couche de retrieval temps-réel.

Qu'est-ce que le RAG et comment affecte-t-il les citations LLM ?

Le RAG (Retrieval-Augmented Generation) est une architecture où le LLM récupère des documents web en temps réel avant de générer sa réponse. Les systèmes RAG comme Perplexity sont plus sensibles au contenu web actuel et retournent un éventail plus large de citations. Les LLM non-RAG (Claude, ChatGPT sans browsing) reflètent davantage leur données d'entraînement.

Comment les LLM choisissent leurs sources — Décryptage complet

Deux types de LLM, deux logiques

Pour comprendre les citations LLM, il faut d'abord distinguer deux architectures :

LLM purs (Claude sans outils, ChatGPT sans browsing) — génèrent à partir de leur entraînement. Ils "savent" ce qu'ils ont appris. La citation reflète la densité d'association entre une entité et un sujet dans les données d'entraînement.
LLM avec RAG (Perplexity, ChatGPT avec browsing, Gemini avec Search grounding) — récupèrent des documents web en temps réel avant de générer. La citation reflète à la fois l'entraînement ET le contenu web actuel.

Cette distinction a des implications directes pour votre stratégie GEO : les LLM RAG répondent plus vite aux optimisations de contenu actuelles, tandis que les LLM purs nécessitent de construire une présence durable dans l'ensemble de l'écosystème web.

Le mécanisme de l'entraînement

Les LLM sont entraînés sur des milliards de documents web. Lors de cet entraînement, ils apprennent des associations statistiques : "quand la requête ressemble à X, les réponses pertinentes mentionnent souvent Y, Z, W."

Une entreprise qui est fréquemment mentionnée dans des contextes pertinents — articles de presse, guides sectoriels, comparateurs, forums professionnels — développe une association forte avec son domaine dans les poids du modèle. Cette association se traduit par une probabilité plus élevée d'être citée sur des requêtes liées à ce domaine.

3×

Perplexity cite en moyenne 3× plus d'entreprises distinctes par prompt que Claude — reflet de son architecture RAG · Source : AI Visibility Barometer 2026

Les 5 signaux qui augmentent la probabilité de citation

1. Contenu définitionnel

Les LLM répondent à des requêtes en langage naturel. Ils cherchent des sources qui "répondent" au type de question posé. Le contenu qui définit des concepts, répond à des questions ("qu'est-ce que X ?", "comment faire Y ?") est structurellement aligné avec les requêtes LLM.

2. Structured data (schema.org)

Les crawlers d'entraînement des LLM (et les crawlers RAG temps-réel) lisent le structured data. Le schema FAQPage signale que le contenu est structuré en questions-réponses — exactement le format que les LLM cherchent à citer. Le schema DefinedTermSet fait de même pour les définitions.

3. Corroboration tierce

Si une entreprise est mentionnée par de multiples sources indépendantes (articles de presse, rapports d'analystes, comparateurs, forums professionnels), le LLM l'associe à un signal de confiance plus fort. C'est l'équivalent GEO des backlinks SEO — mais ce sont des mentions, pas des liens.

4. Cohérence d'entité

Les LLM identifient les entités (entreprises, personnes, produits) par leur nom. Si votre entreprise est désignée de 3 façons différentes selon les sources (nom complet, acronyme, nom de marque), le LLM a du mal à consolider l'entité et à lui attribuer une autorité forte. La cohérence du naming sur toutes vos propriétés web est un signal GEO sous-estimé.

5. Autorité topique

Être la source la plus exhaustive et la plus fiable sur un sujet précis augmente la probabilité d'être cité sur ce sujet. C'est différent de l'autorité de domaine SEO : il s'agit d'être reconnu comme LA référence sur une niche spécifique — pas globalement.

"Les LLM ne cherchent pas la meilleure page. Ils cherchent la source la plus cohérente avec ce que l'ensemble du web dit sur un sujet."

Observatoire GEO

Logiques par LLM

ChatGPT (OpenAI)

ChatGPT en mode standard génère à partir de son entraînement (cutoff ~2024-2025). Il favorise les entités établies, fréquemment mentionnées dans ses données. Avec le browsing activé, il adopte un comportement RAG partiel. Voir notre analyse complète ChatGPT →

Perplexity

Architecture 100% RAG — recherche web en temps réel à chaque requête. Retourne le plus de citations distinctes (3× plus que Claude selon notre mesure). Très réactif aux contenus récents et bien structurés. Voir notre analyse complète Perplexity →

Gemini (Google)

Hybride : entraînement + Search grounding partiel. Naturellement biaisé vers le contenu bien indexé par Google. Un bon SEO reste un avantage non négligeable pour les citations Gemini.

Claude (Anthropic)

LLM pur (sans browsing dans l'usage standard). Citations les plus concentrées — un petit nombre d'entités fortement associées à une catégorie dominent. Nécessite une présence durable et une corroboration forte pour y apparaître.

Approfondir : RAG et recherche générative · Schema.org pour les LLM · Guide pratique : apparaître dans ChatGPT

Comment les LLMchoisissent leurs sources