Qu'est-ce que le RAG ?
RAG — Retrieval-Augmented Generation. Une architecture LLM en deux temps : avant de générer sa réponse, le système récupère (retrieval) des documents pertinents depuis une source externe (le web, une base vectorielle), puis génère (generation) en s'appuyant sur ces documents.
Concrètement : vous posez une question à Perplexity. Avant de vous répondre, Perplexity effectue une ou plusieurs recherches web, lit les pages trouvées, et génère sa réponse en synthétisant ce qu'il a lu. Les sources qu'il cite sont les pages qu'il a récupérées.
RAG vs LLM pur : ce que ça change
Un LLM pur (Claude en usage standard, ChatGPT sans browsing) génère exclusivement à partir de ses paramètres d'entraînement — des patterns appris sur des milliards de documents collectés jusqu'à une date de cutoff. Il ne "voit" pas le web au moment de la requête.
Un LLM RAG voit le web en temps réel. Ce qui a été publié hier peut être cité aujourd'hui. Ce qui a été mis à jour récemment est immédiatement disponible pour la citation.
Citations distinctes par prompt en moyenne sur Perplexity vs 2.7 pour Claude — l'architecture RAG explique l'essentiel de cette différence · Source : AI Visibility Barometer 2026
Implications pour votre stratégie GEO
Sur les moteurs RAG (Perplexity, ChatGPT avec browsing)
- Votre contenu doit être indexable et crawlable — robots.txt ouvert aux bots IA (GPTBot, PerplexityBot)
- Le contenu récent a plus de valeur — une publication datée de la semaine dernière peut être citée dès demain
- La structuration du contenu est critique — titres clairs, paragraphes courts, réponses directes aux questions
- Le llms.txt aide les crawlers RAG à identifier votre contenu le plus pertinent
Sur les LLM purs (Claude, ChatGPT sans browsing)
- Le contenu ancien et établi a plus de valeur — il a eu le temps d'être intégré dans les données d'entraînement
- La corroboration tierce est déterminante — être mentionné par de nombreuses sources indépendantes dans les données d'entraînement
- Les optimisations actuelles ne produisent des effets qu'au prochain cycle d'entraînement du modèle
Optimiser pour le RAG : liste de contrôle
- ✅
robots.txt: autoriser GPTBot, PerplexityBot, ClaudeBot, Googlebot - ✅
llms.txtà la racine du site avec liste des pages et descriptions - ✅ Titres de pages qui reprennent la question cible ("Comment X ?" "Qu'est-ce que Y ?")
- ✅ Premiers paragraphes qui répondent directement à la question (pas d'intro générique)
- ✅ Schema FAQPage sur les pages catégorie
- ✅ Dates de publication et de mise à jour visibles
- ✅ Vitesse de chargement acceptable (les crawlers RAG ont des timeouts)