Hallucination (IA) : quand le modèle invente avec une confiance absolue

Ou : Pourquoi votre assistant IA cite des livres qui n’existent pas — et pourquoi il ne s’en excuse jamais

Vous avez un ami qui a réponse à tout. Il a lu énormément, il articule bien, il est convaincant. Le problème, c’est qu’environ une fois sur vingt, il invente un fait de toutes pièces. Pas par malice — il ne sait pas qu’il invente. Dans sa tête (pour autant qu’il en ait une), ce qu’il dit est parfaitement cohérent avec tout le reste. Le fait inventé ressemble exactement aux faits réels. Même ton, même assurance, même structure de phrase.

Cet ami, c’est un LLM.

Une hallucination en IA, c’est quand un modèle de langage génère une information qui a l’air vraie, qui sonne vraie, qui s’insère parfaitement dans un raisonnement par ailleurs correct — mais qui est factuellement fausse. Ce n’est pas un bug au sens classique du terme. C’est une conséquence directe de la façon dont ces modèles fonctionnent : ils ne savent rien. Ils prédisent le prochain token le plus probable. Et parfois, le token le plus probable est un mensonge élégant.

Anatomie d’un phénomène que personne n’a vraiment résolu

Ce qui se passe réellement dans le modèle

Pour comprendre pourquoi les LLM hallucinent, il faut comprendre ce qu’ils font réellement quand ils génèrent du texte. Un LLM ne consulte pas une base de données de faits. Il n’a pas une mémoire organisée où « Paris est la capitale de la France » serait stocké dans un dossier étiqueté « géographie ». Ce qu’il a, c’est des milliards de paramètres — des poids numériques — qui encodent des patterns statistiques appris pendant l’entraînement.

Quand vous lui demandez « Quelle est la capitale de la France ? », il ne cherche pas la réponse. Il calcule que, dans les milliards de textes qu’il a vus pendant son entraînement, la séquence de tokens la plus probable après « La capitale de la France est » est « Paris ». Et il a raison. Mais le mécanisme est le même quand il se trompe : il génère la suite la plus probable, et parfois la suite la plus probable est fausse.

C’est comme un étudiant qui a appris ses cours en lisant des milliers de copies d’autres étudiants. Il a internalisé les patterns — la structure des réponses, le vocabulaire attendu, le format des citations. Quand la question correspond à un pattern bien couvert, il répond correctement. Quand la question tombe dans une zone mal couverte, il fait ce que ferait n’importe quel étudiant stressé : il improvise en imitant le style des bonnes réponses.

Les trois types d’hallucinations

Toutes les hallucinations ne se valent pas. La communauté de recherche distingue généralement trois catégories, classées par dangerosité croissante :

L’hallucination factuelle — le modèle invente un fait précis. « Le pont de Millau a été inauguré en 2008 » (c’était en 2004). « Le premier email a été envoyé par Ray Tomlinson en 1969 » (c’était en 1971). Ces erreurs sont détectables par un humain qui connaît le sujet — mais justement, si vous connaissez le sujet, vous n’avez probablement pas besoin de l’IA pour y répondre.

L’hallucination de source — le modèle cite une référence qui n’existe pas. Un article scientifique avec un titre plausible, des auteurs crédibles, publié dans une revue réelle, avec un DOI qui ressemble à un vrai DOI. Tout est faux. Le modèle a appris le format des citations académiques, et il le reproduit avec des données inventées. C’est le type d’hallucination qui a envoyé un avocat new-yorkais devant le juge en 2023¹.

L’hallucination logique — le modèle construit un raisonnement cohérent en apparence mais basé sur des prémisses inventées. C’est la plus dangereuse parce qu’elle est la plus difficile à détecter. Chaque étape du raisonnement semble valide. La conclusion découle logiquement des prémisses. Sauf qu’une des prémisses est fausse, et tout l’édifice s’effondre — mais seulement si vous vérifiez les fondations.

Pourquoi c’est si difficile à corriger

Le problème fondamental, c’est que l’hallucination n’est pas un dysfonctionnement du modèle. C’est le modèle qui fonctionne exactement comme prévu — il prédit la suite la plus probable — mais dans un cas où la suite la plus probable ne correspond pas à la réalité.

Imaginez que vous demandiez à un GPS de vous guider dans une ville qu’il ne connaît pas. Il va quand même tracer un itinéraire, parce que c’est ce que font les GPS. Il va utiliser les patterns des villes qu’il connaît — les rues principales sont probablement orientées nord-sud, il y a probablement un centre-ville, il y a probablement des sens uniques. L’itinéraire aura l’air parfaitement raisonnable. Il sera peut-être même partiellement correct. Mais il ne sera pas fiable.

On ne peut pas « interdire » à un LLM d’halluciner sans fondamentalement changer ce qu’il est. C’est comme demander à un perroquet très intelligent d’arrêter de répéter des choses sans les comprendre — c’est littéralement tout ce qu’il sait faire, et il le fait remarquablement bien.

Le hall of fame des hallucinations

L’histoire récente de l’IA est ponctuée d’hallucinations mémorables qui ont eu des conséquences réelles :

Google Bard, février 2023. Lors de la démo de lancement de Bard, le modèle a affirmé que le télescope spatial James Webb avait pris les « toutes premières images d’une exoplanète en dehors de notre système solaire ». Faux — la première image directe d’une exoplanète date de 2004, prise par le VLT de l’ESO. Une hallucination dans une démo publique. L’action Alphabet a perdu environ 100 milliards de dollars en capitalisation boursière dans les jours qui ont suivi².

L’affaire Mata v. Avianca, 2023. Un avocat new-yorkais, Steven Schwartz, a utilisé ChatGPT pour rédiger un mémoire juridique et a cité six décisions de justice. Aucune n’existait. Le juge P. Kevin Castel a qualifié le mémoire de « sans précédent » et a sanctionné l’avocat et son cabinet. Les décisions inventées avaient des noms de parties crédibles, des numéros de dossier plausibles, et des résumés juridiquement cohérents. ChatGPT avait tout inventé avec l’aplomb d’un expert.

Meta Galactica, novembre 2022. Meta a lancé Galactica, un LLM spécialisé dans la littérature scientifique, avec une démo publique permettant de générer des articles de recherche. En trois jours, la démo a été retirée. Le modèle générait du contenu scientifiquement plausible mais factuellement faux, avec de vraies citations mélangées à des citations inventées — le pire des deux mondes.

Le dialogue du rapport halluciné

DevOps Dave : J’ai branché ChatGPT sur notre base de documentation interne. Les réponses sont incroyables.

Security Sarah : Incroyables comment ?

DevOps Dave : Genre, je lui demande la procédure de rollback et il me donne les étapes exactes, avec les bons noms de services.

Security Sarah : Tu as vérifié ?

DevOps Dave : Les trois premières, oui. C’était parfait.

Security Sarah : Et les suivantes ?

DevOps Dave : … Il m’a dit de redémarrer un service qui n’existe pas. Mais le nom avait l’air tellement plausible que j’ai d’abord cru qu’on l’avait ajouté pendant mes vacances.

Security Sarah : Voilà. C’est ça le problème des hallucinations. Ce n’est pas qu’elles soient absurdes — c’est qu’elles sont plausibles.

Comment limiter les hallucinations (sans les éliminer)

Il n’existe pas de solution miracle. Mais plusieurs stratégies réduisent significativement le risque :

Le RAG (Retrieval-Augmented Generation) est la stratégie la plus répandue. Au lieu de demander au modèle de répondre de mémoire, on lui fournit des documents pertinents et on lui dit de baser sa réponse dessus. C’est l’équivalent de passer d’un examen à livre fermé à un examen à livre ouvert. Le modèle peut encore halluciner — il peut ignorer les documents ou mal les interpréter — mais le taux d’hallucination baisse drastiquement.

Le grounding consiste à ancrer les réponses du modèle dans des sources vérifiables. Certains systèmes demandent au modèle de citer ses sources pour chaque affirmation, puis vérifient automatiquement que les citations existent et correspondent à ce qui est affirmé. C’est du fact-checking automatisé, et c’est imparfait, mais c’est mieux que rien.

La réduction de température est un levier technique. La température contrôle le degré de « créativité » du modèle — une température basse le pousse vers les réponses les plus probables, une température haute le rend plus aventureux. Pour les tâches factuelles, baisser la température réduit les hallucinations. Pour les tâches créatives, c’est l’inverse qu’on veut³.

Le prompting structuré — demander explicitement au modèle de dire « je ne sais pas » quand il n’est pas sûr — aide dans certains cas. Mais un LLM ne « sait » pas ce qu’il ne sait pas. Quand il hallucine, il est aussi confiant que quand il dit la vérité. Le « je ne sais pas » est lui-même une prédiction statistique, pas un acte d’introspection.

La vérification humaine reste la solution la plus fiable et la moins scalable. Un humain dans la boucle (human-in-the-loop) qui vérifie les sorties avant qu’elles n’atteignent l’utilisateur final. C’est ce que font la plupart des déploiements sérieux en entreprise. C’est aussi ce qui tue l’argument du « ça remplace 10 employés » — si vous avez besoin d’un humain pour vérifier chaque réponse, vous avez un outil d’aide à la rédaction, pas un remplaçant.

Tableau récapitulatif

Concept	En une phrase
Hallucination	Information générée par un LLM qui a l’air vraie mais qui est fausse.
Hallucination factuelle	Inventer un fait précis (date, chiffre, nom).
Hallucination de source	Citer une référence qui n’existe pas (article, livre, jurisprudence).
Hallucination logique	Construire un raisonnement valide sur des prémisses inventées.
Grounding	Ancrer les réponses dans des sources vérifiables.
Temperature	Paramètre qui contrôle la « créativité » vs la fiabilité du modèle.
Human-in-the-loop	Vérification humaine des sorties avant utilisation.

Le mot de la fin

L’hallucination est peut-être le problème le plus fondamental de l’IA générative actuelle, parce qu’il mine la confiance — et la confiance est la seule chose qui compte pour un outil qu’on utilise pour prendre des décisions. Un outil qui a raison 95% du temps et tort 5% du temps sans aucun signal qui distingue les deux cas est, dans beaucoup de contextes, moins utile qu’un outil qui a raison 80% du temps mais qui vous prévient quand il n’est pas sûr.

Le paradoxe, c’est que les LLM sont devenus suffisamment bons pour que leurs erreurs soient invisibles aux non-experts. Quand GPT-2 hallucine, c’était évident — le texte partait dans tous les sens. Quand un modèle moderne hallucine, il faut un expert du domaine pour le détecter. L’amélioration des modèles a rendu les hallucinations plus dangereuses, pas moins.

C’est pour ça que le RAG existe. C’est pour ça que le grounding existe. C’est pour ça que la vérification humaine existe. Pas parce que les modèles sont mauvais — parce qu’ils sont trop bons à avoir l’air d’avoir raison.

L’affaire Mata v. Avianca, Inc. (2023, S.D.N.Y.) est devenue un cas d’école. Le juge Castel a imposé une amende de 5 000 $ à l’avocat et à son cabinet. La décision a déclenché une vague de directives judiciaires à travers les États-Unis exigeant que les avocats certifient que leurs citations juridiques ont été vérifiées par un humain. Ironiquement, ChatGPT avait généré non seulement les décisions fictives, mais aussi de faux extraits du Westlaw confirmant leur existence — une hallucination de deuxième degré. ↩︎
La chute boursière de Google n’est pas entièrement attribuable à l’hallucination de Bard — le marché réagissait aussi à la perception que Google était en retard sur Microsoft/OpenAI dans la course à l’IA. Mais l’erreur factuelle dans la démo est devenue le symbole de cette perception. C’est le genre de moment où une seule phrase incorrecte coûte plus cher que la plupart des entreprises ne valent. ↩︎
La température est un nombre entre 0 et 2 (généralement). À température 0, le modèle choisit toujours le token le plus probable — c’est le mode le plus « sûr » mais aussi le plus répétitif. À température 1, il échantillonne proportionnellement aux probabilités. Au-dessus de 1, il donne plus de chances aux tokens improbables — c’est là que la créativité (et les hallucinations) fleurissent. Beaucoup de systèmes de production utilisent une température entre 0 et 0.3 pour les réponses factuelles. ↩︎

← Retour au glossaire

Québec, Canada