D’ici la fin de 2025, plus de 700 affaires judiciaires avaient été documentées dans le monde impliquant des hallucinations générées par l’IA — citations juridiques fabriquées, citations inventées, précédents inexistants — présentées par des avocats, des consultants et même des juges. L’étude Stanford HAI la plus citée de 2025 a mesuré des LLM à usage général halluciner entre 69% et 88% du temps sur des requêtes juridiques. Même les outils d’IA juridique haut de gamme de LexisNexis et Thomson Reuters hallucinent encore entre 17% et 33% du temps. Deloitte Australia a dû rembourser une partie d’un contrat gouvernemental de AU$440,000 après qu’un rapport sur la main-d’œuvre a été jugé contenir des citations académiques fabriquées. Cinq mois plus tard, en novembre 2025, un Deloitte Health Plan de CA$1.6M pour Terre-Neuve a été pris en flagrant délit avec au moins quatre citations inventées de travaux de recherche inexistants.
Le schéma observé dans ces incidents est cohérent et contre-intuitif. Les organisations qui en souffrent ne sont pas celles qui ont le moins de données — ce sont celles qui en ont le plus. La promesse de l’IA était que l’échelle produirait des insights. La réalité, c’est que davantage de données, injectées dans des modèles sans gouvernance sur ce qu’ils produisent, génèrent des erreurs plus plausibles. Cet article explique pourquoi cela se produit, ce qui fonctionne réellement pour y remédier, et quels cadres les équipes d’entreprise déploient en 2026 pour éviter d’être le prochain cas d’école.
Le problème des hallucinations : pourquoi plus de données ne signifie pas une meilleure IA
L’hallucination dans les grands modèles de langage n’est pas un bug, au sens conventionnel du terme. C’est une caractéristique de fonctionnement de ces systèmes. Un LLM ne “sait” rien de manière vérifiable — il produit des prolongements statistiquement probables du texte d’entrée. Lorsque le modèle rencontre une question à laquelle il n’a pas de réponse fondée, il génère quand même une réponse plausible, parce que générer quelque chose est précisément ce pour quoi le modèle a été conçu.
L’intuition selon laquelle “plus de données d’entraînement corrige cela” s’avère partiellement fausse. L’échelle améliore l’éloquence et réduit certaines catégories d’erreurs, mais elle ne corrige pas le mécanisme sous-jacent. Trois modes de défaillance persistent quelle que soit la taille du modèle :
- Confabulation : Le modèle fabrique des citations, des statistiques, des citations directes ou des sources qui n’existent pas. Une étude Mount Sinai de 2025 sur les LLM cliniques a révélé un taux d’hallucination de 64.1% sur de longs cas cliniques sans mitigation, tombant à 23% avec le modèle le plus performant (GPT-4o) associé à une optimisation des prompts. Même à 23%, une IA clinique qui hallucine une fois sur quatre n’est pas déployable sans vérification humaine.
- Dérive contextuelle : Le modèle récupère des informations réelles mais les applique au mauvais contexte. Une IA qui puise dans un référentiel salarial de 2020 pour répondre à une question de rémunération de 2025 utilise techniquement des données réelles, mais produit une fausse insight.
- Biais hérité : Le modèle perpétue des schémas présents dans ses données d’entraînement. La controverse de 2019 sur les limites de crédit de l’Apple Card, où les femmes se voyaient systématiquement proposer des lignes de crédit inférieures à celles de leurs maris, remonte à des données de prêt qui intégraient une discrimination historique. Le modèle fonctionnait correctement. Les données, non.
Le facteur aggravant dans les déploiements en entreprise est que les outils d’IA ont désormais accès à bien plus de données internes que les humains qui les utilisent ne peuvent raisonnablement auditer. Microsoft Copilot, lorsqu’il est déployé sans restrictions, indexe tout ce à quoi un utilisateur a accès en lecture dans SharePoint, OneDrive, Teams et Outlook. C’est structurellement utile pour la productivité et structurellement dangereux pour l’intégrité des résultats, puisque le modèle résumera volontiers un document de politique obsolète ou un brouillon de contrat comme s’il s’agissait de la source faisant autorité actuelle.
Taux d’hallucination documentés selon le contexte (2025)
| Contexte | Taux d’hallucination | Source |
|---|---|---|
| LLM à usage général sur des requêtes juridiques | 69-88% | Stanford HAI / RegLab, 2024-2025 |
| IA juridique premium (Lexis+, Westlaw AI) | 17-33% | Stanford, Journal of Empirical Legal Studies, 2025 |
| Recherche juridique Stanford CodeX | 30-45% | Stanford CodeX, 2025 |
| LLM cliniques, cas longs (sans atténuation) | 64.1% | Mount Sinai, 2025 |
| LLM cliniques, GPT-4o avec optimisation | 23% | Mount Sinai, 2025 |
| Articles NeurIPS 2025 (évalués par des pairs) | 53 articles avec des citations fabriquées | Analyse GPTZero, janvier 2026 |
Cas réels : quand l’IA a induit en erreur des décisions réelles
L’abstraction « l’IA se trompe parfois » devient beaucoup plus concrète lorsqu’on parcourt les incidents précis qui ont défini la vague d’hallucinations de 2024-2025.
- Mata c. Avianca (juin 2023) : L’affaire qui a ouvert cette ère. L’avocat new-yorkais Steven Schwartz a soumis un mémoire juridique citant six affaires générées par ChatGPT. Aucune n’existait. Schwartz avait même demandé à ChatGPT de confirmer que les citations étaient réelles, et le modèle les avait confirmées. Le tribunal lui a infligé une sanction de 5 000 $ et l’incident est désormais enseigné dans les cours d’éthique des facultés de droit.
- Chatbot d’Air Canada (février 2024) : Un tribunal de la Colombie-Britannique a jugé qu’Air Canada était légalement tenue par une politique de remboursement inventée par son chatbot de service client. La compagnie aérienne a soutenu que le chatbot était une « entité juridique distincte ». Le tribunal n’a pas été d’accord. Air Canada a payé.
- Chatbot NYC MyCity (2024) : Le chatbot destiné aux petites entreprises de la ville de New York, propulsé par Microsoft, a conseillé à plusieurs reprises aux utilisateurs d’enfreindre les lois municipales — notamment en encourageant les restaurateurs à prélever une part des pourboires des employés, ce qui est illégal au regard du droit du travail de New York. Le chatbot est resté en production pendant des mois après la divulgation publique des problèmes.
- Morgan & Morgan (2025) : Le cabinet d’avocats américain a été sanctionné de 5 000 $ après qu’un de ses avocats a déposé un acte contenant 8 citations d’affaires fabriquées sur 9. La réponse du cabinet a consisté en une politique obligatoire d’utilisation de l’IA à l’échelle du cabinet.
- Avocat de l’Alabama (2025) : Un avocat exerçant seul a soumis un mémoire avec 21 citations d’affaires fabriquées sur 23 — un taux d’hallucination de 91 %. Le tribunal lui a infligé une amende et l’a signalé au barreau de l’État.
- Deloitte Australie (mi-2025) : Une équipe de consultants a utilisé GPT-4o pour aider à rédiger un rapport sur les tendances de la main-d’œuvre pour le gouvernement australien. La plupart des références académiques et plusieurs citations étaient fabriquées. Deloitte a remboursé une partie du contrat de 440 000 AU$.
- Deloitte Newfoundland (novembre 2025) : Un plan de ressources humaines en santé de CA$1.6 million comprenait au moins quatre citations à des articles de recherche inexistants. Rapporté par The Independent.
- Articles de la conférence NeurIPS 2025 (janvier 2026) : GPTZero a analysé plus de 4 000 articles acceptés et a trouvé des citations hallucinées par l’IA dans au moins 53 d’entre eux, malgré l’évaluation par les pairs. Les fausses citations sont passées à travers parce que le format était correct et que les titres inventés semblaient plausibles.
L’idée directrice est que les hallucinations ne sont pas détectées parce qu’elles sonnent faux. Elles sont détectées quand quelqu’un clique pour vérifier. Dans chaque cas ci-dessus, l’humain dans la boucle n’a pas vérifié, et la confiance de l’IA dans un résultat fabriqué était indiscernable de sa confiance dans un résultat factuel.
De la gouvernance des entrées à la gouvernance des sorties
La plupart des stratégies d’IA d’entreprise en 2022-2024 se concentraient sur la gouvernance des entrées — restreindre les données que le modèle pouvait voir, classer les informations sensibles et mettre en place des contrôles d’accès. Cette approche a heurté un mur structurel. La quantité de données qui circulent dans les systèmes d’IA est désormais trop importante pour être gérée manuellement, et les schémas d’accès sont trop dynamiques pour être verrouillés sans compromettre d’emblée la valeur de productivité de l’IA.
Le changement en 2026 va vers la gouvernance des sorties : partir du principe que l’entrée est désordonnée et, à la place, valider, surveiller et filtrer la sortie avant qu’elle n’atteigne un décideur. Quatre pratiques définissent une gouvernance des sorties mature :
- Évaluation avant déploiement : Faire passer le système d’IA par une suite de tests standardisée comprenant des invites adversariales, des cas limites et des tâches de vérification spécifiques au domaine. L’HHEM (Hallucination Evaluation Model) open source de Vectara et le benchmark HalluLens de l’ACL 2025 sont désormais des points de référence standards.
- Ancrage via la génération augmentée par récupération (RAG) : Contraindre le modèle à répondre uniquement à partir d’une base de connaissances contrôlée et récupérable, avec des citations explicites renvoyant aux documents sources. Même le RAG n’est pas une solution complète — l’évaluation de Stanford de Lexis+ AI et Westlaw AI a montré que les systèmes basés sur le RAG hallucinent encore 17-33% du temps — mais c’est une amélioration significative par rapport à une génération non ancrée.
- Surveillance en temps réel des sorties : Consigner chaque réponse de l’IA, la comparer à des garde-fous (contraintes factuelles, affirmations interdites, exigences de citation) et signaler les anomalies. Des outils comme Guardrails AI, NVIDIA NeMo Guardrails, Galileo, Patronus AI et la couche d’ancrage contextuel de Glean sont les principales options commerciales.
- Traçabilité des sources : Exiger que les réponses de l’IA citent les documents dont elles s’inspirent, afin que la personne qui examine la sortie puisse vérifier la source sous-jacente plutôt que l’interprétation qu’en fait l’IA.
Les cadres qui s’appliquent réellement
Trois cadres dominent la gouvernance de l’IA en entreprise en 2026. Ils se recoupent, mais résolvent des problèmes différents.
| Cadre | Origine | Champ d'application | Statut en 2026 |
|---|---|---|---|
| NIST AI Risk Management Framework (AI RMF 1.0) | NIST américain, 2023, profil d’IA générative ajouté en 2024 | Cadre volontaire fondé sur le risque | Norme d’entreprise de facto aux États-Unis |
| AI Act de l’UE | Union européenne, en vigueur en août 2024 | Réglementation obligatoire, à niveaux de risque | Amendes pouvant atteindre 7 % du chiffre d’affaires mondial ; obligations applicables aux systèmes à haut risque à partir de 2026-2027 |
| ISO/IEC 42001 | ISO, décembre 2023 | Norme de système de management de l’IA | Certifiable, aligné sur les pratiques ISO 27001 et 9001 |
| Microsoft Responsible AI Standard v2 | Microsoft, 2022, mis à jour en 2024-2025 | Norme interne pour les produits Microsoft | Utilisé comme référence par les clients de Copilot/Azure AI |
L’AI Act de l’UE est celui qui a le plus d’impact opérationnel pour toute organisation ayant des clients ou des activités en Europe. Les obligations relatives aux systèmes à haut risque — couvrant l’IA utilisée dans les décisions de crédit, le recrutement, l’éducation, les infrastructures critiques et l’application de la loi — sont devenues लागूables par étapes à partir de 2026. La sanction maximale (7 % du chiffre d’affaires annuel mondial pour les utilisations interdites de l’IA) est plus sévère que celle du RGPD, qui est de 4 %. Les organisations qui ont construit leur IA en partant du principe que « la réglementation finira bien par arriver » s’empressent désormais de mettre en place une gouvernance a posteriori.
Le cadre de gestion des risques liés à l’IA du NIST est volontaire, mais il est devenu la référence par défaut pour les entreprises américaines, en partie parce que les achats fédéraux y font de plus en plus référence et en partie parce que c’est le seul cadre suffisamment spécifique pour être opérationnel sans être assez prescriptif pour freiner l’innovation. Le profil d’IA générative publié en 2024 a ajouté des নির্দেশations spécifiques aux LLM pour les hallucinations, l’injection de prompts et la provenance des données d’entraînement.
La mise en place pratique en 5 étapes de la gouvernance des résultats
Pour les équipes qui déploient l’IA sans perdre huit semaines à choisir un cadre, le plan d’action opérationnel en 2026 ressemble à ceci :
- Inventoriez vos déploiements d’IA. La plupart des entreprises ont davantage d’IA en production que l’IT central ne le pense. L’usage de l’IA fantôme — des équipes commerciales qui collent des données clients dans ChatGPT, des équipes marketing qui génèrent des textes de campagne dans Claude — constitue le plus grand risque non maîtrisé dans la plupart des organisations.
- Classez par niveau de risque. Le cadre de l’EU AI Act est utile ici, même en dehors de l’UE : attribuez à chaque usage de l’IA un niveau selon le préjudice qu’une mauvaise réponse pourrait causer. Les chatbots en contact avec les clients qui formulent des déclarations sur les politiques, les décisions de crédit, les conseils médicaux et les recherches juridiques se situent en haut de l’échelle.
- Mettez en place un ancrage (RAG) pour les applications à haut risque. Ne laissez pas les LLM de production répondre uniquement à partir des données d’entraînement pour tout ce qui influence une décision réelle. Récupérez les informations depuis un dépôt de documents contrôlé, versionné et fiable, et exigez des citations.
- Déployez une surveillance des hallucinations. Vectara HHEM, Guardrails AI, NeMo Guardrails, Patronus AI et Glean proposent tous une validation côté sortie. Choisissez-en un. Traitez les alertes comme des incidents de production.
- Formez les humains au mode de défaillance réel. Le constat le plus fréquemment cité dans la base de données juridique sur les hallucinations est que les avocats n’ont pas vérifié parce qu’ils supposaient que l’IA aurait refusé si elle ne savait pas. Formez les équipes au fait que les LLM ne refusent pas par défaut. Ils fabulent.
Ce qui se passe sans gouvernance des sorties
La lettre de décembre 2025 d’une coalition de procureurs généraux d’États américains avertissait explicitement que le déploiement de LLM sans mécanismes de vérification pourrait enfreindre les lois de protection des consommateurs. Les plus de 700 affaires judiciaires documentées impliquant des sorties d’IA hallucinées ne marquent pas la fin de la tendance — elles n’en constituent que la partie visible précoce. Les actions en diffamation, les plaintes pour faute professionnelle, les sanctions réglementaires et les recours collectifs commencent à émerger à mesure que le système juridique rattrape la manière dont les sorties d’IA sont largement traitées comme faisant autorité.
Les organisations qui survivront à la prochaine phase d’adoption de l’IA ne sont pas celles qui disposent des plus grands jeux de données d’entraînement ou des modèles les plus sophistiqués. Ce sont celles qui ont d’abord résolu le problème plus simple et moins valorisant : savoir quand leur IA se trompe avant que cette erreur n’atteigne un décideur, un client ou un dépôt au tribunal.
Le lien entre l’optimisation de la fabrication et l’intégrité des sorties de l’IA est plus étroit qu’il n’y paraît. Une IA sur une ligne de production qui prend la mauvaise décision concernant l’état d’un équipement ou le contrôle qualité entraîne un coût mesurable, comme le montre notre analyse de données de fabrication analyse de l'IA. La même discipline de gouvernance s’applique aux intégrations de cybersécurité de l’IA comme les déploiements de cybersécurité de GPT-4 que Microsoft a progressivement mis en place, ainsi qu’aux questions stratégiques plus larges soulevées lors d’événements comme le Sommet Skift Data + AI.
FAQ : hallucination et gouvernance de l’IA
Qu'est-ce qu'une hallucination d'IA ?
Une hallucination d’IA se produit lorsqu’un grand modèle de langage génère des informations qui semblent faisant autorité et plausibles, mais qui sont factuellement incorrectes, fabriquées ou inventées. Le modèle ne ment pas au sens intentionnel — il produit du texte statistiquement probable sans l’ancrer dans des faits vérifiés.
À quelle fréquence les outils d'IA hallucinent-ils ?
Le taux varie considérablement selon le contexte et l’outil. Les LLM polyvalents hallucinent de 69 à 88 % du temps sur les requêtes juridiques (Stanford HAI). Les outils d’IA juridique premium (Lexis+ AI, Westlaw AI) hallucinent encore à 17-33 % (Stanford 2025). Les LLM cliniques hallucinent jusqu’à 64,1 % sur les cas longs sans atténuation (Mount Sinai 2025). Les taux d’hallucination diminuent fortement avec la génération augmentée par récupération et un prompting approprié, mais n’atteignent jamais zéro.
Les hallucinations de l’IA peuvent-elles être évitées ?
Ils peuvent être considérablement réduits, mais pas éliminés. La génération augmentée par récupération (RAG), les outils de validation de sortie (Vectara HHEM, Guardrails AI, NeMo Guardrails, Patronus AI), les exigences de citation des sources et la vérification humaine font tous baisser le taux de manière significative. Le mécanisme structurel qui produit les hallucinations — une génération de texte statistique sans vérité ancrée — n’a pas été résolu au niveau du modèle.
Qu'est-ce que l'AI Act de l'UE et s'applique-t-il à mon entreprise ?
La loi européenne sur l’IA (EU AI Act) est la réglementation de l’Union européenne fondée sur les niveaux de risque pour l’IA, en vigueur depuis août 2024 avec une application progressive jusqu’en 2027. Elle s’applique à toute entreprise proposant des systèmes ou services d’IA à des clients de l’UE, quel que soit le lieu d’implantation de l’entreprise. Les sanctions peuvent atteindre 7 % du chiffre d’affaires annuel mondial pour les utilisations interdites de l’IA. Les obligations relatives aux systèmes à haut risque couvrent l’IA dans le crédit, le recrutement, l’éducation, l’application de la loi et les infrastructures critiques.
Qu'est-ce que le cadre de gestion des risques liés à l'IA du NIST ?
NIST AI RMF 1.0 est un cadre volontaire fondé sur le risque, publié en 2023 par le National Institute of Standards and Technology des États-Unis, avec un profil d’IA générative ajouté en 2024. Il constitue la norme de facto des entreprises américaines pour la gouvernance de l’IA et est de plus en plus cité dans les marchés publics fédéraux.
Quels outils détectent réellement les hallucinations de l’IA ?
Les outils de détection des hallucinations de niveau production en 2026 comprennent Vectara HHEM (open-source), Guardrails AI, NVIDIA NeMo Guardrails, Galileo, Patronus AI, la couche d’ancrage contextuel de Glean, Arize, Fiddler et WhyLabs. Chacun adopte une approche différente — correspondance de motifs, notation statistique de la confiance ou évaluation modèle contre modèle — et la plupart des équipes en combinent deux ou plus.


