ChatGPT a mis les LLMs sur la carte en 2022. Claude, Gemini et leurs concurrents ont suivi. Aujourd'hui tout le monde en parle. Peu savent ce qu'il y a réellement derrière, ni pourquoi ça marche de cette façon précise et pas d'une autre.

Ce n'est pas un reproche : personne n'a besoin de comprendre la thermodynamique pour conduire une voiture. Mais pour décider intelligemment de l'endroit où intégrer ces outils dans votre entreprise, comprendre ce que fait réellement un LLM et ce qu'il ne fait pas change beaucoup les conclusions.

La définition courte

Un LLM (Large Language Model, grand modèle de langage) est un modèle statistique entraîné à prédire le mot suivant dans une séquence de texte, sur des quantités astronomiques de données textuelles. Après cet entraînement, il a intégré suffisamment de structures, de patterns et de connaissances implicites pour générer du texte cohérent, répondre à des questions, résumer, traduire, extraire de l'information, et raisonner sur du langage. Ce qu'il fait n'est pas de la compréhension au sens humain. C'est une prédiction très sophistiquée, rendue possible par un modèle avec des centaines de milliards de paramètres.

Le résultat impressionne. La mécanique, elle, reste celle d'un prédicteur de token après token.

Comment ça fonctionne, sans entrer dans les maths

Deux phases distinctes. Il faut les garder en tête pour comprendre pourquoi ces modèles ont leurs limites spécifiques.

L'entraînement est la phase longue, coûteuse, non répétée. On expose le modèle à d'immenses corpus de texte (livres, sites web, code, articles scientifiques, forums) et on lui apprend à prédire ce qui vient après chaque morceau de texte. Cet entraînement compresse des milliards d'exemples en paramètres mathématiques. À la fin, le modèle ne "stocke" pas les textes qu'il a vus. Il a encodé des régularités, des associations, des structures. C'est la connaissance du monde que le modèle possède, et elle est figée à la date de fin d'entraînement.

L'inférence est la phase que vous utilisez. Vous envoyez une requête, le modèle prédit les tokens les plus probables pour y répondre, un à la fois. Ce moment-là est rapide et peu coûteux comparé à l'entraînement. Le modèle ne consulte pas une base de données, ne cherche pas sur Internet, ne raisonne pas comme vous le faites. Il prédit la continuation la plus plausible de votre texte d'entrée, en fonction de tout ce qu'il a vu pendant l'entraînement.

Les "tokens", ce sont les unités de base que le modèle manipule. Pas des mots entiers, plutôt des fragments de mots. "Entreprise" devient quelque chose comme ["Entr", "eprise"]. Votre question et la réponse sont toutes les deux converties en tokens avant d'être traitées. La limite de contexte d'un modèle (souvent exprimée en milliers de tokens) détermine la quantité d'information qu'il peut traiter en une seule fois.

Le modèle ne sait pas. Il prédit ce qui ressemble à quelqu'un qui sait.

C'est cette distinction qui explique l'hallucination. Quand un LLM ne dispose pas d'une information dans ses paramètres, il ne dit pas "je ne sais pas" par défaut. Il génère ce qui ressemble statistiquement à une réponse correcte. Ça sonne juste. L'orthographe est irréprochable. Le contenu est inventé. Le problème n'est pas une dysfonction : c'est exactement le mécanisme qui le rend utile, appliqué à un cas où il n'a pas les données.

Ce qu'un LLM fait bien en entreprise

Là où un LLM excelle : tout ce qui ressemble à du traitement de langage avec de la flexibilité.

La rédaction et la reformulation. Générer un premier jet, réécrire un texte dans un autre registre, synthétiser un long document, reformuler pour différents publics. Ces tâches ne demandent pas d'exactitude factuelle absolue. Un LLM y est rapide et souvent très bon.

L'extraction d'information structurée. Passer un contrat, un e-mail ou une facture au LLM et lui demander d'en extraire les champs importants dans un format structuré. Sur ce type de tâche, les performances sont élevées et l'erreur est facile à détecter en aval.

La classification et le tri. Catégoriser des demandes entrantes, détecter le sentiment d'un avis client, prioriser des tickets support. Le LLM se comporte comme un classifieur très flexible qui comprend le contexte et la nuance, sans avoir besoin d'être entraîné spécifiquement sur vos données.

Le dialogue et l'assistance contextuelle. Répondre à des questions sur un corpus de documents fournis, guider un utilisateur dans un processus, expliquer un concept. Dans ce registre, les LLMs changent vraiment la façon dont on accède à l'information.

Ce qu'un LLM fait mal

Ce n'est pas la partie qu'on vous montre dans les démos. Pourtant elle est décisive pour éviter les déconvenues.

Le calcul exact. Un LLM n'est pas une calculatrice. Il peut vous donner le bon résultat sur un calcul simple, par mémorisation d'exemples similaires vus à l'entraînement. Sur des calculs inhabituels ou multi-étapes, il se trompe. Si votre cas d'usage implique de la précision numérique, il faut un outil dédié, pas un LLM seul.

Les faits à jour. La connaissance du modèle est figée à sa date d'entraînement. Tout ce qui s'est passé après, il l'ignore sauf si vous le lui donnez explicitement dans le contexte. Pour des sujets où les informations changent vite (prix, réglementations, actualité), un LLM seul n'est pas fiable. C'est pour ça qu'on lui connecte des outils de recherche ou des bases documentaires actualisées.

La fiabilité sur les faits précis. Demander à un LLM "quel est le numéro SIRET de cette entreprise" ou "quelle est la jurisprudence exacte sur ce point" sans lui fournir les sources, c'est lui demander d'inventer avec confiance. Il le fera. L'hallucination n'est pas aléatoire, elle est souvent cohérente et convaincante. C'est précisément ce qui la rend dangereuse.

LLM, agent, RAG : trois choses distinctes

On les confond souvent. Ce n'est pas la même chose.

Un LLM seul est le modèle de prédiction de texte décrit ci-dessus. Il reçoit du texte, il génère du texte. Il n'agit pas, il ne cherche pas, il ne se souvient de rien entre deux conversations.

Un RAG (Retrieval-Augmented Generation) connecte un LLM à une base documentaire. Quand vous posez une question, le système récupère d'abord les passages pertinents dans vos documents, puis les passe au LLM avec votre question. Le modèle répond en s'appuyant sur ces sources, pas uniquement sur son entraînement. C'est le mécanisme qui permet à un LLM de travailler sur vos données internes et récentes. J'explique les cas d'usage concrets dans RAG en entreprise : usages réels.

Un agent IA va plus loin : c'est un LLM qui dispose d'outils (recherche, lecture de fichiers, écriture dans des systèmes, appels d'API) et d'une boucle décision-action-vérification. Il ne répond pas seulement, il agit en plusieurs étapes vers un objectif. La distinction complète est dans Qu'est-ce qu'un agent IA ?.

Le LLM est la fondation. Le RAG lui donne de la mémoire documentaire. L'agent lui donne des mains.

Et pour compléter le tableau : si vous vous êtes déjà demandé lequel choisir entre les principaux modèles du marché, la comparaison pratique est dans Claude vs GPT : lequel pour votre PME ?.

En clair

Un LLM est un prédicteur de texte extraordinairement puissant, pas un cerveau omniscient. Cette distinction n'est pas une nuance technique. Elle détermine où il apporte de la valeur réelle et où il devient un risque opérationnel si vous lui faites trop confiance.

Pour un usage en entreprise, la règle de base est simple : il excelle sur les tâches de langage flexibles où une erreur se détecte et se corrige facilement. Il échoue sur les tâches de précision factuelle où personne ne vérifiera sa sortie. La façon de l'utiliser efficacement tient souvent à cette seule décision : que laissez-vous à l'humain.

Si vous cherchez à identifier les bons cas d'usage dans votre contexte avant d'aller plus loin, le détail de ma méthode est sur ma page consultant IA. Et pour un échange direct, c'est par ici.