Un LLM ne connaît pas vos documents. Il a été entraîné sur des textes publics, jusqu'à une certaine date, et il s'arrête là. Demandez-lui ce qui est écrit dans votre procédure interne de validation des devis, il inventera une réponse plausible, ou avouera qu'il ne sait pas. Le RAG résout ce problème précis.

La définition courte

Un RAG (Retrieval Augmented Generation) est une architecture qui permet à un modèle de langage d'aller chercher les informations pertinentes dans vos propres documents avant de formuler une réponse, en s'appuyant sur ce qu'il vient de récupérer. Le « retrieval » (récupération) va chercher les passages utiles dans votre base interne. La « generation » (génération) formule la réponse à partir de ces passages.

Le modèle ne mémorise pas vos données. Il les consulte au moment où on lui pose une question.

La différence avec un ChatGPT classique tient en une phrase : ChatGPT répond à partir de ce qu'il a appris lors de son entraînement. Un RAG répond à partir de vos documents à vous, ceux que ChatGPT n'a jamais vus.

Un RAG ne rend pas l'IA plus intelligente. Il lui donne accès à votre connaissance interne, et non plus seulement à la connaissance publique.

Comment ça marche, sans le jargon

Il y a trois étapes, et elles se comprennent sans être ingénieur.

L'ingestion. Vous choisissez les documents à intégrer : PDF, Word, pages Confluence, contenus Notion, etc. Ils sont nettoyés, puis découpés en morceaux de taille cohérente (c'est le « chunking »). Mal découper un document, c'est dégrader toutes les réponses qui s'en suivent. C'est l'étape la moins visible et la plus déterminante.

La vectorisation. Chaque morceau est transformé en une représentation mathématique de son sens, et stocké dans une base vectorielle. Ce n'est pas une base de données classique qui cherche des mots-clés. Elle cherche du sens : une question formulée autrement trouvera quand même le bon passage.

La réponse. Quand un utilisateur pose une question, le système retrouve les morceaux les plus proches sémantiquement, les passe au modèle de langage, et le modèle rédige une réponse en s'appuyant sur ces passages. Il peut citer ses sources. Si l'information n'est pas dans la base, un système bien configuré le dit plutôt que d'inventer.

Ce que ça change concrètement

Deux avantages principaux, que les outils classiques ne donnent pas.

Réponses sur vos données. Pas sur ce qu'un modèle a appris d'internet. Vos contrats, votre documentation technique, votre base RH. Un commercial peut demander « quelles sont les conditions de pénalités dans notre contrat avec ce client » et obtenir la réponse en quelques secondes, avec la clause citée.

Sources citées. Un RAG bien conçu indique d'où vient chaque réponse. Ce n'est pas un détail : c'est ce qui permet de vérifier, de faire confiance, et de détecter quand le système se trompe.

C'est aussi ce qui distingue le RAG d'une simple recherche interne. La recherche vous renvoie une liste de documents à ouvrir. Le RAG vous donne la réponse à votre question, en langage naturel, à partir de ces documents.

Quand le RAG n'est pas la bonne réponse

C'est la question qu'on pose rarement. Trois cas où d'autres solutions sont plus adaptées.

Données qui changent en permanence. Si l'information que vous cherchez évolue plusieurs fois par jour (statuts de commande en temps réel, disponibilités de stock, cours de change), un RAG aura toujours un train de retard. Entre le moment où un document change et celui où la base vectorielle est mise à jour, il y a un délai. Le modèle peut répondre avec assurance sur des données périmées. Pour ce type d'usage, un accès direct à la source via API est plus fiable.

Volume documentaire faible. En dessous d'une cinquantaine de documents, monter une architecture RAG est souvent excessif. Les modèles modernes acceptent des contextes de 100 000 à 200 000 tokens : vous pouvez passer toute votre documentation en entrée directe, sans retrieval, avec souvent de meilleurs résultats. Le RAG est utile quand vous avez trop de documents pour tout passer en contexte, pas quand vous en avez peu.

La réponse demande du calcul, pas de la récupération. « Combien de clients ont généré plus de 100k€ ce trimestre » est une question SQL, pas une question RAG. « Quel est le meilleur moyen d'optimiser ce processus » est une question de jugement, pas de récupération documentaire. Le RAG excelle à retrouver une information écrite quelque part. Si la réponse doit être calculée, agrégée ou raisonnée sur des données structurées, il faut une autre architecture.

Pour les cas d'usage où le RAG est vraiment pertinent, avec le détail de ce qui marche, ce qui plante, et les erreurs à éviter en PME, c'est dans l'article RAG en entreprise : cas d'usage réels, pas du buzzword.

En clair

Le RAG n'est pas une technologie magique. C'est une architecture qui résout un problème précis : brancher un modèle de langage sur votre base documentaire interne pour qu'il puisse répondre sur vos données, avec vos sources, plutôt que de se limiter à ce qu'il a appris.

Sa valeur dépend de deux conditions : une base documentaire propre et bien structurée, et un usage qui correspond à ce que le retrieval sait faire (retrouver de l'information, pas calculer ou raisonner sur du structuré).

Si vous voulez évaluer si le RAG a du sens dans votre contexte ou cadrer un cas d'usage avant de vous lancer, le détail de ma méthode est sur ma page consultant IA. Et si vous préférez un échange direct, c'est juste ici.