Méthodologie d’audit IA en entreprise : cadre, étapes et conformité AI Act

Méthodologie d'audit IA pour les entreprises en 2026 : cadres de référence (AI Act, ISO/IEC 42001, NIST AI RMF, OWASP LLM, MITRE ATLAS), étapes opérationnelles, critères d'évaluation, rôles, outils marché et plan de remédiation. Guide pour DSI, RSSI, DPO, direction juridique et COMEX.

Partager cet article​

Par Elisha Bajemon, Ingénieur IA chez TW3 Partners. Dernière mise à jour : 28 mai 2026.

En bref

Auditer un système d’IA en entreprise est devenu une exigence opérationnelle en 2026. L’AI Act (règlement UE 2024/1689) déploie ses obligations par jalons, ISO/IEC 42001 fournit la norme certifiable de système de management de l’IA, l’OWASP Top 10 for LLM Applications 2025 et MITRE ATLAS structurent la cybersécurité IA, la CNIL a finalisé en juillet 2025 une série de recommandations sur le développement des systèmes d’IA, tout en poursuivant ses travaux sectoriels et ses outils d’évaluation. Ce guide opérationnel décrit la méthodologie d’audit IA appliquée chez TW3 Partners : cadres de référence, étapes, critères d’évaluation, rôles, outils marché et plan de remédiation.

Un audit IA articule cinq blocs. Cartographie et classification AI Act ; évaluation données et biais ; évaluation robustesse et cybersécurité (OWASP LLM, MITRE ATLAS) ; évaluation explicabilité et supervision humaine ; gouvernance et documentation (ISO/IEC 42001, NIST AI RMF). Sortie : registre des systèmes, matrice de risques, plan de mise en conformité chiffré et daté.

Sommaire

  1. Pourquoi auditer l’IA en 2026
  2. Cadres de référence
  3. Étapes de la méthodologie d’audit
  4. Critères d’évaluation détaillés
  5. Rôles et gouvernance
  6. Outils marché 2026
  7. Plan de remédiation
  8. Méthode TW3 Partners
  9. Cas d’usage types
  10. Pour aller plus loin
  11. FAQ
  12. Sources

1. Pourquoi auditer l’IA en 2026

Trois forces structurent l’audit IA aujourd’hui.

Calendrier réglementaire AI Act. Le règlement (UE) 2024/1689 instaure une approche par les risques. Les pratiques interdites et les obligations de littératie IA s’appliquent depuis le 2 février 2025. Les obligations applicables aux fournisseurs de modèles GPAI s’appliquent depuis le 2 août 2025, avec des modalités de conformité précisées par le Code of Practice et les lignes directrices associées. L’accord provisoire du 7 mai 2026 sur le Digital Omnibus prévoit un report des obligations applicables aux systèmes à haut risque : au 2 décembre 2027 pour les systèmes relevant de l’Annexe III et au 2 août 2028 pour les systèmes relevant de l’Annexe I. La fenêtre de mise en conformité s’élargit, ce qui place l’audit IA dans une logique de programme pluriannuel plutôt que d’urgence isolée.

Sanctions chiffrées (article 99). L’AI Act prévoit trois plafonds : jusqu’à 35 millions d’euros ou 7 % du chiffre d’affaires mondial pour les pratiques interdites, jusqu’à 15 millions d’euros ou 3 % pour les violations d’obligations applicables aux opérateurs (notamment systèmes à haut risque et fournisseurs GPAI), jusqu’à 7,5 millions d’euros ou 1 % pour la fourniture d’informations incorrectes, incomplètes ou trompeuses aux autorités. Pour chaque infraction, le montant retenu correspond au plus élevé du forfait ou du pourcentage, à l’exception des PME et start-up pour lesquelles c’est le moindre des deux qui s’applique.

Dette technique post-GenAI. Les déploiements 2023-2024 ont accumulé une dette : prompts non versionnés, RAG fragiles, observabilité absente, dépendance forte à un fournisseur unique, absence de golden dataset. L’audit identifie cette dette avant qu’elle ne bloque l’industrialisation et la conformité.

2. Cadres de référence

L’audit IA s’appuie sur un socle de référentiels publics complémentaires.

Synthèse des référentiels

RéférentielObjectifCe que l’audit vérifie
AI Act (UE 2024/1689)Cadre européen de mise sur le marché et d’usage des systèmes IAClassification par risque, documentation technique (annexe IV), supervision humaine, gestion des risques, littératie, transparence GPAI
RGPD (UE 2016/679) et fiches CNILProtection des données personnelles dans les systèmes IABase légale, AIPD, minimisation, droits des personnes, web scraping, sécurité, annotation, statut RGPD des modèles
ISO/IEC 42001:2023Système de management de l’IA (AIMS), norme certifiablePolitique IA, rôles, gestion du cycle de vie, gestion des risques, amélioration continue
ISO/IEC 23894:2023Guidance de gestion des risques IA alignée ISO 31000Méthode d’identification, d’analyse et de traitement des risques IA
ISO/IEC 5338:2023Processus de cycle de vie des systèmes IAArticulation avec ISO/IEC/IEEE 15288 et 12207, cohérence cycle de vie
NIST AI RMF 1.0 et NIST AI 600-1Cadre de gestion des risques IA (Govern, Map, Measure, Manage) avec profil GenAICartographie des risques (dont risques GenAI), mesures, gouvernance, suivi
OWASP Top 10 for LLM Applications 2025Référentiel cyber pour applications LLMCouverture des dix risques majeurs (prompt injection, fuite d’information sensible, supply chain, etc.)
MITRE ATLASCatalogue de tactiques et techniques adverses contre les systèmes IAThreat modeling, red teaming, couverture techniques et mitigations
ENISACadres et bonnes pratiques cybersécurité IASécurisation des algorithmes ML, cybersécurité par couches (socle, IA, sectorielle)

2.1 Normes ISO/IEC

ISO/IEC 42001:2023 publiée en décembre 2023 : première norme internationale certifiable de système de management de l’IA. Elle structure la politique IA, les rôles, la gestion des risques, la documentation et l’amélioration continue, sur le modèle ISO 9001 ou ISO/IEC 27001. C’est le pivot d’un audit de gouvernance IA. La certification n’est pas une obligation réglementaire ; elle constitue un signal de maturité interne et externe.

ISO/IEC 23894:2023 : guidance dédiée à la gestion des risques IA, alignée sur ISO 31000.

ISO/IEC 5338:2023 : processus de cycle de vie des systèmes IA, articulés avec ISO/IEC/IEEE 15288 (systèmes) et 12207 (logiciel).

2.2 NIST AI RMF

Le NIST AI Risk Management Framework 1.0, publié en janvier 2023, organise la gestion des risques autour de quatre fonctions : Govern, Map, Measure, Manage. Le Generative AI Profile (NIST AI 600-1), publié en juillet 2024, étend le cadre aux risques spécifiques de la GenAI (hallucinations, contenus CBRN, propriété intellectuelle, vie privée, données d’entraînement, contenus illicites) avec des actions suggérées par fonction.

2.3 AI Act et documentation

L’AI Act impose une classification par niveau de risque (interdit, haut risque, risque limité, risque minimal). L’annexe IV liste la documentation technique exigée pour les systèmes à haut risque : description générale, conception, données, processus de développement, monitoring, gestion des risques, instructions d’usage. L’AI Office, créé au sein de la Commission européenne, contribue à la supervision des modèles GPAI et à la publication de lignes directrices, codes de bonnes pratiques et documents d’accompagnement.

2.4 ENISA

L’ENISA Securing Machine Learning Algorithms (2021) cartographie les menaces propres au machine learning. Le Multilayer Framework for Good Cybersecurity Practices for AI, publié en juin 2023, propose une approche en trois couches : cybersecurity foundations (socle), AI-specific cybersecurity (spécifique IA), sector-specific cybersecurity for AI (sectorielle).

2.5 OWASP et MITRE

OWASP Top 10 for LLM Applications 2025 liste les dix risques majeurs des applications LLM :

IdentifiantIntitulé originalTraduction de travail
LLM01:2025Prompt InjectionInjection de prompt
LLM02:2025Sensitive Information DisclosureFuite d’information sensible
LLM03:2025Supply ChainChaîne d’approvisionnement (modèles, dépendances)
LLM04:2025Data and Model PoisoningEmpoisonnement des données et des modèles
LLM05:2025Improper Output HandlingMauvaise gestion des sorties
LLM06:2025Excessive AgencyAgence excessive
LLM07:2025System Prompt LeakageFuite du prompt système
LLM08:2025Vector and Embedding WeaknessesFaiblesses des vecteurs et embeddings
LLM09:2025MisinformationDésinformation
LLM10:2025Unbounded ConsumptionConsommation non bornée

MITRE ATLAS (Adversarial Threat Landscape for Artificial Intelligence Systems) catalogue des tactiques, techniques, mitigations et études de cas liées aux attaques contre les systèmes d’IA. Il prolonge la logique de MITRE ATT&CK pour les systèmes IA (vision, NLP, ML classique, LLM, agents) et sert de base au threat modeling et au red teaming IA.

2.6 CNIL et RGPD

La CNIL a publié depuis 2024 plusieurs fiches pratiques sur le développement des systèmes d’IA, couvrant notamment la base légale, l’intérêt légitime, le web scraping, la sécurité, l’annotation des données d’entraînement et le statut des modèles au regard du RGPD. L’article 22 du RGPD encadre les décisions individuelles automatisées produisant des effets juridiques ou significatifs ; il ne s’applique pas à tout système IA.

Une AIPD est obligatoire lorsqu’un traitement présente un risque élevé pour les droits et libertés des personnes (article 35 RGPD). Pour les systèmes IA à haut risque ou impliquant des données sensibles, elle constitue un réflexe de gouvernance fortement recommandé, articulé avec la documentation AI Act.

3. Étapes de la méthodologie d’audit

L’audit IA s’exécute en neuf étapes documentées et reproductibles.

  1. Cadrage périmètre. Définition des entités auditées, des cas d’usage inclus, des sponsors, du calendrier et des livrables. Note de lancement signée par la direction générale.
  2. Cartographie et inventaire. Recensement exhaustif des systèmes IA (déployés, pilotes, POC) avec sponsor, statut, données impliquées, modèle utilisé, fournisseur, coût annuel, valeur estimée.
  3. Classification AI Act. Catégorisation de chaque système selon les quatre niveaux (interdit, haut risque, risque limité, risque minimal). Identification des obligations applicables et de la documentation à produire (annexe IV).
  4. Évaluation données et biais. Audit des datasets d’entraînement et d’évaluation : licéité, lineage, qualité, représentativité, biais documentés, golden dataset pour le suivi en production.
  5. Évaluation robustesse adversariale. Tests d’attaques (prompt injection, jailbreak, empoisonnement, exfiltration) selon OWASP Top 10 for LLM Applications 2025 et MITRE ATLAS. Red teaming sur les cas d’usage critiques.
  6. Évaluation explicabilité et traçabilité. Vérification des mécanismes d’interprétabilité, de journalisation des décisions, de traçabilité des prompts et des sorties. Versionnage des configurations.
  7. Évaluation supervision humaine. Identification des points de contrôle human-in-the-loop et human-on-the-loop, des seuils de bascule manuelle, des procédures d’arrêt rapide.
  8. Évaluation cybersécurité et conformité. Articulation avec le SMSI existant, revue des contrôles selon le cadre ENISA, validation AIPD CNIL, vérification de la documentation alignée ISO/IEC 42001.
  9. Synthèse et plan de remédiation. Cartographie consolidée, matrice de risques, plan d’action priorisé chiffré, restitution au comité IA et au COMEX.

4. Critères d’évaluation détaillés

4.1 Données et biais

  • Le data lineage des datasets critiques est-il documenté ?
  • Les données personnelles font-elles l’objet d’une AIPD validée par le DPO ?
  • Le scraping éventuel respecte-t-il la fiche CNIL dédiée ?
  • Existe-t-il un golden dataset annoté par des experts pour l’évaluation continue ?
  • Les biais (genre, âge, origine, géographie) sont-ils mesurés sur les sorties en production ?

4.2 Robustesse et cybersécurité

  • Les dix risques OWASP Top 10 for LLM Applications 2025 sont-ils couverts par des contrôles documentés ?
  • Les techniques MITRE ATLAS pertinentes sont-elles intégrées au threat model ?
  • Des tests d’injection de prompt et de jailbreak sont-ils planifiés à cadence régulière ?
  • Le supply chain modèle est-il vérifié (provenance, licence, signature, vulnérabilités) ?
  • Les agents disposent-ils des permissions strictement nécessaires (least privilege) ?

4.3 Explicabilité et traçabilité

  • Les décisions à impact significatif sont-elles assorties d’une explication intelligible ?
  • Les prompts et configurations sont-ils versionnés et auditables a posteriori ?
  • Les traces (inputs, outputs, latences, coûts) sont-elles conservées pour la durée requise ?
  • L’article 22 du RGPD est-il respecté sur les décisions individuelles automatisées concernées ?

4.4 Supervision humaine

  • Les points human-in-the-loop sont-ils définis et instrumentés ?
  • Les opérateurs disposent-ils du contexte, des compétences et du temps pour reprendre la main ?
  • Existe-t-il une procédure d’arrêt rapide documentée et testée ?
  • L’obligation de littératie IA (article 4 AI Act) est-elle déployée auprès des utilisateurs concernés ?

4.5 Gouvernance et documentation

  • Une politique IA d’entreprise est-elle formalisée, diffusée et révisée ?
  • La documentation technique annexe IV est-elle prête pour les systèmes à haut risque ?
  • Le comité IA dispose-t-il d’un mandat, d’une cadence et d’un secrétariat ?
  • Le registre des systèmes IA est-il tenu à jour et lié au registre RGPD ?
  • Le plan de surveillance post-commercialisation est-il actif ?

5. Rôles et gouvernance

L’audit s’appuie sur un attelage clair de fonctions.

  • Responsable IA / AI Officer lorsque cette fonction existe. Animateur du comité IA, gardien de la cartographie et du plan de conformité. Le rôle n’est pas une obligation légale en soi, mais une bonne pratique de gouvernance dans les organisations matures.
  • DPO. Pilote des AIPD, articulation RGPD et AI Act, validation des bases légales.
  • RSSI. Sécurité IA opérationnelle, couverture OWASP LLM et MITRE ATLAS, intégration au SOC et au SMSI.
  • Direction métier. Sponsor des cas d’usage, propriétaire de la valeur attendue.
  • Direction des risques et audit interne. Vérification indépendante, articulation avec les comités d’audit.
  • Direction juridique. Veille AI Act, contractualisation fournisseurs, gestion des risques de sanctions.

Pour les systèmes à haut risque, l’AI Act exige une supervision humaine effective et une chaîne de responsabilité documentée. Les rôles doivent être nominatifs et tracés.

6. Outils marché 2026

Le marché s’est structuré en trois familles complémentaires.

6.1 Plateformes de gouvernance IA

Parmi les plateformes de gouvernance IA présentes sur le marché figurent notamment Credo AI, Holistic AI, Trustible et Saidot. Elles maintiennent le registre des systèmes, la classification AI Act, le workflow de revue et la documentation.

6.2 Évaluation et audit technique

  • Inspect AI : développé par l’UK AI Security Institute et Meridian Labs, framework Python open source pour l’évaluation des modèles d’IA.
  • DeepEval : framework pytest-natif pour les tests LLM (G-Eval, métriques DAG, harnais agentique).
  • Promptfoo : CLI et dashboard local-first, orienté red teaming et régression.
  • Giskard : scan de vulnérabilités et détecteurs spécifiques LLM.

6.3 Observabilité applicative

  • Langfuse : open source, traces, prompts, latences, coûts.
  • Arize Phoenix : open source, observabilité LLM et évaluations en ligne.

Le choix dépend du stack (cloud, langage, framework), du périmètre de conformité visé et de l’intégration avec le SIEM et le SOC.

7. Plan de remédiation

Le plan de remédiation transforme les constats en actions datées et budgétées. Il s’organise en trois horizons.

0 à 100 jours. Actions urgentes : combler les manques bloquants (registre, classification AI Act, AIPD), corriger les vulnérabilités OWASP LLM critiques (prompt injection, fuite de secrets), formaliser le comité IA, déployer la littératie IA aux populations concernées.

100 à 300 jours. Industrialisation : déploiement de l’observabilité, mise en place du red teaming périodique, documentation annexe IV pour les systèmes à haut risque, intégration au SMSI avec alignement ISO/IEC 42001, AIPD systématiques sur les nouveaux cas d’usage.

300 jours et plus. Conformité durable : préparation de la certification ISO/IEC 42001 si pertinent, monitoring post-commercialisation, formation continue, revue annuelle de la politique IA, intégration au reporting extra-financier.

Chaque action porte un responsable nominatif, une date, un livrable et un budget. Les arbitrages remontent au comité IA puis au COMEX.

8. Méthode TW3 Partners

Chez TW3 Partners, cette méthodologie permet de cadrer un audit IA en 4 à 8 semaines selon le périmètre, le nombre de systèmes et la maturité documentaire de l’organisation. L’audit s’articule en sept jalons :

  1. Cadrage (semaine 1)
  2. Inventaire et classification AI Act (semaines 2 à 3)
  3. Audit données, robustesse et cybersécurité (semaines 3 à 5)
  4. Audit explicabilité, supervision et gouvernance (semaines 4 à 6)
  5. Synthèse et matrice de risques (semaine 6)
  6. Plan de remédiation chiffré (semaine 7)
  7. Restitution COMEX et transfert opérationnel (semaine 8)

Lorsque l’audit débouche sur un programme d’implémentation, la séparation des rôles entre évaluation indépendante et intégration doit être documentée afin d’éviter les conflits d’intérêts. Les livrables d’audit sont conçus pour être repris par les équipes internes ou par un tiers intégrateur.

L’équipe TW3 Partners est présente sur le stand Hall 7.2, Allée C, Stand 74, lors de VivaTech 2026, du 17 au 20 juin 2026.

9. Cas d’usage types

Les scénarios suivants illustrent le déroulé d’un audit selon le secteur. Ils servent de gabarits ; chaque mission réelle est calibrée sur le périmètre et les contraintes du client.

Banque de détail, assistant conseiller LLM. Scénario type : audit d’un assistant LLM pour les conseillers d’agences. Classification AI Act à instruire au cas par cas selon la finalité (information, recommandation, décision). AIPD validée par le DPO. Couverture OWASP Top 10 for LLM Applications 2025 sur prompt injection et fuite d’information. Golden dataset annoté de quelques centaines de conversations. Observabilité Langfuse ou équivalent. Comité IA bimensuel. Remédiation 100 jours : versionnage des prompts, red teaming trimestriel.

Industrie, maintenance prédictive. Scénario type : audit d’un modèle de détection d’anomalies sur chaîne de production. La classification AI Act dépend de la finalité exacte du système, de son intégration produit et de son impact sur la sécurité ; elle s’instruit cas par cas en s’appuyant sur les Annexes I et III du règlement. Documentation technique alignée annexe IV pour les systèmes effectivement classés haut risque. Supervision humaine renforcée sur les alertes critiques, tests adversariaux sur les capteurs, plan de bascule manuelle documenté. Cible ISO/IEC 42001 à moyen terme si pertinent.

Santé, aide à la décision clinique. Scénario type : audit d’un outil d’aide au diagnostic. Articulation entre l’AI Act, le règlement européen sur les dispositifs médicaux (MDR 2017/745) lorsque le logiciel est un dispositif médical, le RGPD pour les données de santé, et le label HDS en France pour l’hébergement des données de santé à caractère personnel. AIPD approfondie, supervision humaine systématique, biais évalués par sous-population, surveillance post-commercialisation active.

10. Pour aller plus loin

  • Choisir un cabinet de conseil IA en 2026 : guide pillar
  • Mettre en place un RAG souverain : architecture, stack technique et conformité AI Act
  • Déployer une IA agentique en entreprise
  • Build vs buy IA générative
  • TW3 Partners VivaTech 2026 : informations stand
  • Rencontrer un expert IA TW3 sur VivaTech 2026

11. FAQ

Combien de temps dure un audit IA en entreprise ?
Entre 4 et 8 semaines pour un périmètre standard. Un audit ciblé sur un cas d’usage prend 2 à 3 semaines. Un audit complet sur un grand groupe multi-entités peut atteindre 12 semaines.

Quelle est la différence entre ISO/IEC 42001 et NIST AI RMF ?
ISO/IEC 42001 est une norme internationale certifiable de système de management de l’IA, structurée sur le modèle ISO 9001 ou ISO/IEC 27001. NIST AI RMF est un cadre méthodologique de gestion des risques, gratuit, non certifiant, particulièrement utilisé aux États-Unis. Les deux sont complémentaires : ISO/IEC 42001 fournit la structure organisationnelle, NIST AI RMF outille la gestion fine des risques par fonction (Govern, Map, Measure, Manage).

Quand l’AI Act devient-il pleinement applicable ?
Le règlement est entré en vigueur le 1er août 2024. Les pratiques interdites et la littératie IA sont applicables depuis le 2 février 2025. Les obligations applicables aux fournisseurs de modèles GPAI s’appliquent depuis le 2 août 2025, avec des modalités de conformité précisées par le Code of Practice et les lignes directrices associées. L’accord provisoire du 7 mai 2026 sur le Digital Omnibus prévoit un report des obligations applicables aux systèmes à haut risque : au 2 décembre 2027 pour les systèmes relevant de l’Annexe III et au 2 août 2028 pour les systèmes relevant de l’Annexe I.

Quelles sont les sanctions maximales de l’AI Act ?
L’article 99 prévoit trois plafonds : jusqu’à 35 millions d’euros ou 7 % du chiffre d’affaires mondial pour les pratiques interdites, jusqu’à 15 millions d’euros ou 3 % pour les autres obligations applicables aux opérateurs, jusqu’à 7,5 millions d’euros ou 1 % pour les informations incorrectes, incomplètes ou trompeuses fournies aux autorités. Pour les PME et start-up, c’est le moindre des deux montants qui s’applique.

Une AIPD est-elle obligatoire pour tout système IA ?
Non. L’AIPD est obligatoire dès qu’un traitement présente un risque élevé pour les droits et libertés des personnes (article 35 RGPD). Pour les systèmes IA à haut risque ou impliquant des données sensibles, elle constitue un réflexe de gouvernance fortement recommandé, articulé avec la documentation AI Act. Le DPO la valide et la met à jour à chaque évolution significative.

Que couvre OWASP Top 10 for LLM Applications 2025 ?
Dix risques majeurs : Prompt Injection, Sensitive Information Disclosure, Supply Chain, Data and Model Poisoning, Improper Output Handling, Excessive Agency, System Prompt Leakage, Vector and Embedding Weaknesses, Misinformation, Unbounded Consumption. C’est le référentiel cyber de référence pour les applications GenAI.

Qu’apporte MITRE ATLAS par rapport à OWASP LLM ?
MITRE ATLAS catalogue les tactiques et techniques adverses sur l’ensemble des systèmes IA (vision, NLP, ML classique, LLM, agents), au-delà des seules applications LLM. Il alimente le threat modeling et le red teaming et se met à jour régulièrement avec de nouvelles techniques, notamment côté agentique.

Quels outils choisir pour outiller l’audit ?
Une plateforme de gouvernance (Credo AI, Holistic AI, Trustible, Saidot) pour le registre et la documentation ; un framework d’évaluation (Inspect AI, DeepEval, Promptfoo, Giskard) pour les tests ; une solution d’observabilité (Langfuse, Arize Phoenix) pour la production. Le choix dépend de la stack, du périmètre de conformité et de l’intégration avec le SIEM et le SOC.

Quand rencontrer TW3 Partners ?
Au stand Hall 7.2, Allée C, Stand 74 à VivaTech 2026, ou en amont via tw3partners.fr.

12. Sources

Nos Autres Articles​

Conseil IA

Rendre une marque citable par les LLM : retour d’expérience GEO

Méthode GEO opérationnelle pour rendre une marque citable par ChatGPT, Claude, Gemini, Perplexity, Le Chat, Copilot et Google AI Overviews : 4 piliers (entité, structuration, autorité tierce, fraîcheur), 7 actions sur 30 jours, monitoring multi-LLM cadencé J+0/J+3/J+10/J+20, cas anonymisé TW3 et orchestrateur Racine.AI.

Conseil IA

Formation IA exécutive pour dirigeants : programme et résultats

Acculturation COMEX à l’IA : cycle modulaire 1 à 5 jours, vocabulaire commun (LLM, RAG, agents), gouvernance et conformité (AI Act article 4, RGPD, NIS2, SecNumCloud), portefeuille de cas d’usage. Financement Qualiopi/OPCO/France 2030, indicateurs de résultat et méthode TW3 Partners.

Intéressé par la Transformation de Votre Entreprise?

Nous sommes là pour Vous Accompagner.