Par Elisha Bajemon, Ingénieur IA chez TW3 Partners. Dernière mise à jour : 28 mai 2026.
En bref
Un RAG souverain combine corpus, embeddings, vector store, retriever, LLM à poids ouverts et observabilité dans un périmètre technique et juridique maîtrisé. L’accord provisoire du 7 mai 2026 sur le Digital Omnibus prévoit un report des obligations applicables aux systèmes à haut risque : au 2 décembre 2027 pour les systèmes relevant de l’Annexe III et au 2 août 2028 pour les systèmes relevant de l’Annexe I. Cet article décrit l’architecture cible 2026, les composants éprouvés (Mistral, Llama, Qdrant, pgvector, vLLM, BGE-M3, Langfuse), les patterns hybrides gouvernés et le cadre conformité (RGPD, NIS2, SecNumCloud, HDS, ISO/IEC 42001).
Un RAG n’est pas classé haut risque par nature. Son classement au titre de l’AI Act dépend de sa finalité, de son secteur d’usage et du rôle de l’organisation dans la chaîne de valeur IA.
Sommaire
- Pourquoi un RAG souverain en 2026
- Trois variantes : strict, hybride gouverné, classique
- Architecture de référence : six composants et observabilité
- Stack technique 2026 par composant
- Patterns d’indexation et de retrieval
- Anti-patterns à proscrire
- Évaluation et qualification
- Conformité : ce que l’architecture aide à documenter
- Méthode TW3 : cadrer un pilote en six semaines
- Cas d’usage sectoriels
- FAQ
- Sources
1. Pourquoi un RAG souverain en 2026
Quatre facteurs structurent les décisions DSI européennes.
Maîtrise du périmètre juridique. Le Cloud Act américain fait partie des risques juridiques à intégrer dans l’analyse d’un hébergement ou d’une API opérée par un fournisseur soumis à une juridiction extra-européenne. Pour les corpus contenant des données personnelles, cette exposition doit être intégrée à l’analyse RGPD : base légale, minimisation, transferts éventuels, sous-traitance, mesures de sécurité et AIPD lorsque le traitement présente un risque élevé. Un RAG souverain réduit la surface d’exposition extra-UE en gardant corpus, embeddings, prompts et inférences dans un périmètre contractuellement défini.
Cadre AI Act. Le règlement (UE) 2024/1689 instaure une approche par les risques. Les pratiques interdites s’appliquent depuis le 2 février 2025. Les obligations applicables aux modèles GPAI sont entrées en vigueur le 2 août 2025. L’accord provisoire du 7 mai 2026 sur le Digital Omnibus prévoit un report des obligations applicables aux systèmes à haut risque : au 2 décembre 2027 pour les systèmes relevant de l’Annexe III (RH, crédit, éducation, santé, justice, biométrie) et au 2 août 2028 pour les systèmes relevant de l’Annexe I. Les sanctions prévues à l’article 99 atteignent 35 millions d’euros ou 7 % du chiffre d’affaires mondial pour les pratiques interdites, 15 millions ou 3 % pour les autres obligations applicables aux opérateurs, et 7,5 millions ou 1 % pour information incorrecte aux autorités. Un RAG bien instrumenté facilite la documentation technique, le journal d’activité et la supervision humaine attendus.
Conformité sectorielle. La directive NIS2 (UE 2022/2555) renforce les obligations de cybersécurité applicables aux entités essentielles et importantes dans des secteurs comme l’énergie, la santé, les transports, la banque, les infrastructures numériques et l’administration publique. Les corpus de données de santé exigent un hébergement HDS. Les charges sensibles non classifiées peuvent viser la qualification SecNumCloud de l’ANSSI. La qualification SecNumCloud porte sur une offre précise et un périmètre déterminé ; elle ne s’applique pas automatiquement à l’ensemble des services d’un fournisseur cloud.
Secteurs régulés. Défense, santé, banque, énergie, secteur public imposent des contraintes (classification, chiffrement, traçabilité, certifications, supervision humaine) que les API frontier généralistes ne couvrent pas en standard. L’enjeu n’est pas de remplacer un LLM frontier dans l’absolu, mais de stabiliser une stack qui passe l’audit interne, le RSSI, le DPO et le référent IA.
2. Trois variantes : RAG souverain strict, hybride gouverné, classique
| Critère | RAG souverain strict | RAG hybride gouverné | RAG classique |
|---|---|---|---|
| Hébergement infra | On-premise ou cloud français qualifié | Cloud souverain et appels API encadrés | Cloud public, API tierces |
| Corpus | Reste dans le périmètre | Reste dans le périmètre, prompts reformulés sortants | Peut transiter par API tierces |
| Embeddings | Modèles à poids ouverts auto-hébergés | Hybride (open et API européenne) | API commerciales |
| LLM | Mistral, Llama, Phi auto-hébergés | LLM souverain et appel frontier encadré | LLM frontier majoritaire |
| Observabilité | Self-hosted (Langfuse, Phoenix Arize) | Self-hosted et DPA | SaaS |
| Conformité | Compatible défense, santé, secteurs régulés sensibles | Compatible secteurs non sensibles avec DPA et addendum Cloud Act | Usages non régulés, contenus non sensibles |
Dans un RAG souverain strict, le corpus, les embeddings, le vector store, les prompts, les traces et l’inférence restent dans un périmètre technique et juridique maîtrisé.
3. Architecture de référence : six composants et observabilité
L’architecture cible s’organise autour de six composants logiques et d’une couche d’observabilité transverse.
Ingestion. Connecteurs vers les sources documentaires (SharePoint, GED, drives, wikis, bases de connaissances), les bases relationnelles et les API internes. Préservation des ACL d’origine, des métadonnées (auteur, date, classification, habilitation) et du lien vers le document source. Frameworks couramment utilisés : LlamaIndex, LangChain, Haystack, connecteurs propriétaires.
Parsing et chunking. Conversion des formats (PDF, Word, HTML, PowerPoint, courriels) en texte propre avec préservation de la structure (titres, tableaux, images). Unstructured, LlamaParse et Docling sont éprouvés sur les PDF complexes. Le chunking produit des segments cohérents (typiquement 300 à 800 tokens) avec recouvrement contrôlé. Stratégies pertinentes : fixed-size avec overlap, semantic chunking, parent-child, late chunking.
Embeddings. Transformation de chaque chunk en vecteur dense (768 à 1024 dimensions selon le modèle). En souveraineté stricte, les modèles auto-hébergés (BGE-M3, E5, nomic-embed-text) sont privilégiés.
Vector store. Indexation des vecteurs pour la recherche par similarité (cosine, dot product, L2). Les moteurs modernes supportent les filtres métadonnées, les index hybrides (dense et sparse) et l’application des ACL à la requête. Critères de choix : volumétrie cible, latence, écosystème existant, mode de déploiement, modèle de licence.
Retriever et reranker. Le retriever interroge le vector store en combinant recherche dense (vecteurs) et sparse (BM25, SPLADE). Un reranker (BGE-reranker, ColBERT) réordonne les top-k candidats. L’ajout d’un reranker calibré améliore la précision sur les corpus où le top-k contient du bruit ; le gain réel se valide par benchmark interne sur le golden dataset.
LLM à poids ouverts. Génération de la réponse à partir du contexte récupéré, sous contrôle de prompts versionnés et de garde-fous. Mistral, Llama et Phi sont des options courantes pour les déploiements auto-hébergés : Mistral pour les organisations cherchant un acteur européen, Llama pour la maturité de l’écosystème open-weight, Phi pour les usages compacts et edge. Serveurs d’inférence éprouvés : vLLM, Text Generation Inference (Hugging Face), Ollama, llama.cpp, NVIDIA Triton avec TensorRT-LLM.
Observabilité. Instrumentation transverse du pipeline : prompt système, contexte récupéré, réponse générée, latence par étape, coût token, taux de succès, satisfaction utilisateur, dérive sémantique. Langfuse, Phoenix Arize et OpenTelemetry couvrent les besoins en self-hosted. Sans observabilité, un RAG est invisible en production et les régressions silencieuses passent inaperçues.
Le contrat de gouvernance complète l’architecture : versioning des embeddings et des prompts, ACL au plus tôt, traçabilité des inférences, supervision humaine documentée, procédure d’arrêt, plan de rollback.
4. Stack technique 2026 par composant
Vector stores
| Outil | Forces | Quand le choisir |
|---|---|---|
| pgvector | Extension PostgreSQL, intégration SQL, gouvernance via rôles PG | PostgreSQL déjà en production, volumétrie jusqu’à plusieurs millions de chunks |
| Qdrant | Rust, hybride dense et sparse natif, payload filtering, déploiement Docker et Kubernetes | Déploiements souverains ambitieux avec scalabilité horizontale |
| Weaviate | Multi-vecteurs, hybrid search, reranker intégré, modules | Stack modulaire, on-premise ou cloud |
| Milvus | Conçu pour très grands corpus (milliards de vecteurs) | Catalogues massifs, archives, e-commerce |
| Vespa | Moteur Yahoo, ranking ML natif | Combinaison retrieval et scoring ML |
| Chroma | Léger, écosystème Python | POC, déploiements légers |
Embeddings
Modèles à poids ouverts adaptés à la souveraineté stricte : BGE-M3 (BAAI, dense, sparse, multi-vecteur, contextes jusqu’à 8192 tokens, multilingue), E5 (Microsoft, déclinaisons multilingues), nomic-embed-text (licence Apache 2.0, contextes longs).
Pour un schéma hybride gouverné : Mistral Embed via API européenne, sous DPA explicite. Les API Voyage AI, Cohere et OpenAI sont à exclure d’un périmètre souverain strict ; elles peuvent intervenir dans un hybride gouverné encadré.
LLM
Modèles à poids ouverts utilisés en déploiement auto-hébergé : Mistral (Mistral 7B, Mixtral 8x7B et 8x22B, Codestral), Llama (3.x et 4.x, écosystème Meta très large), Phi (Microsoft, 3 à 14 milliards de paramètres, raisonnement compact). Mistral AI a clôturé en septembre 2025 une Série C de 1,7 milliard d’euros menée par ASML (1,3 milliard d’euros engagés, environ 11 % du capital et un siège au comité stratégique), valorisant l’entreprise à 11,7 milliards d’euros et consolidant son statut d’acteur européen majeur de l’IA.
Qwen (Alibaba) reste compétitif sur les benchmarks multilingues mais relève d’une juridiction tierce ; il n’est pas un choix souverain européen par défaut et doit être écarté des périmètres défense et secteurs régulés sensibles.
Serveurs d’inférence
| Outil | Cas d’usage |
|---|---|
| vLLM | Production, PagedAttention et continuous batching qui augmentent le débit, API compatible OpenAI |
| Text Generation Inference (HF) | Production, intégration Hugging Face native |
| Ollama | Développement, démonstrations, edge léger |
| llama.cpp | Edge, CPU et GPU contraints |
| NVIDIA Triton, TensorRT-LLM | Très grandes flottes GPU, optimisation maximale |
vLLM augmente le débit grâce au continuous batching et à l’optimisation du KV-cache ; le gain en tokens par seconde sur un workload donné se valide par benchmark interne.
Rerankers
BGE Reranker (BAAI, open source, intégration native avec les embeddings BGE), ColBERT et ColBERTv2 (interactions tardives multi-vecteurs, bon compromis qualité et coût), Cohere Rerank (commercial, à n’utiliser qu’en hybride gouverné).
Observabilité
Langfuse (open source, focus LLM, traces, prompts, datasets, évaluations, self-hostable), Phoenix Arize (open source, focus debugging et évaluation), OpenTelemetry (standard transverse, intégration Grafana, Prometheus, Datadog self-hosted). Ragas et TruLens couvrent l’évaluation hors-ligne et continue.
Hébergement souverain
Les hébergeurs français et européens proposent des offres adaptées à différents niveaux d’exigence. La qualification SecNumCloud porte sur une offre précise et un périmètre déterminé ; elle ne s’applique pas automatiquement à l’ensemble des services d’un fournisseur cloud. Le choix fournisseur doit porter sur l’offre qualifiée exacte, pas sur le nom de l’entreprise. La liste de référence est tenue par l’ANSSI sur cyber.gouv.fr.
Statut SecNumCloud public des offres citées
| Acteur | Statut public de l’offre citée |
|---|---|
| OVHcloud | Certaines offres dédiées sont qualifiées SecNumCloud 3.2, notamment sur des périmètres Hosted Private Cloud / Bare Metal Pod publiés par l’éditeur et référencés dans l’écosystème ANSSI. |
| Outscale (Dassault Systèmes) | Offre Cloud on Demand qualifiée SecNumCloud, positionnement historique sur les secteurs publics, défense et industries sensibles. |
| Cloud Temple, Oodrive, Worldline, Cegedim, Orange Business, Docaposte | Acteurs disposant d’offres ou services qualifiés SecNumCloud selon les périmètres publiés. Le choix fournisseur doit porter sur l’offre qualifiée exacte, pas sur le nom de l’entreprise. |
| S3NS (Thales et Google Cloud) | Offre PREMI3NS qualifiée SecNumCloud 3.2 depuis le 17 décembre 2025 sur les couches IaaS, CaaS et PaaS. |
| NumSpot (Docaposte, Bouygues Telecom, Dassault Systèmes, Banque des Territoires) | Procédure ANSSI engagée, avec jalons publics franchis sur plusieurs services PaaS. |
| Scaleway | Procédure ANSSI engagée. |
| Bleu (Capgemini et Orange sur Azure) | Procédure ANSSI engagée. |
5. Patterns d’indexation et de retrieval
Indexation hybride dense plus sparse. La combinaison recherche vectorielle (dense, sémantique) et recherche lexicale (BM25, SPLADE) couvre la similarité de sens et la correspondance exacte de termes (noms propres, codes produit, jargon métier). Les benchmarks BEIR confirment de manière répétée la supériorité du hybride sur le dense ou le sparse seuls.
Filtrage ACL et métadonnées à la requête. Les filtres habilitation (utilisateur, équipe, classification), temporels (documents valides) et métiers (entité, pays, ligne de produit) s’appliquent au moment de la requête. Ce filtrage au plus tôt limite l’exposition et améliore la précision en réduisant la masse de candidats à reranker.
Citation grounding. Le LLM cite explicitement les chunks utilisés, avec identifiant, source et passage. La réponse devient auditable : un humain remonte à la source en un clic. Indispensable en secteurs régulés.
Hybride raisonné multi-LLM. Vector store et corpus sur infrastructure souveraine, appels LLM frontier (Claude, GPT) via API pour les tâches complexes où le coût et la qualité justifient l’exposition. Seuls les prompts reformulés transitent vers l’API, jamais le corpus brut. Encadrement obligatoire : DPA, addendum Cloud Act, instrumentation des prompts sortants, journal des appels.
Routage multi-LLM. Un routeur (par exemple Racine.AI, orchestrateur multi-LLM conçu par TW3 Partners) choisit le modèle selon la complexité, le coût, la souveraineté requise et la latence cible. Requêtes simples sur Phi ou Mistral 7B en local, requêtes complexes sur Mistral Large ou Llama 70B sur cloud souverain, exceptions tracées vers un LLM frontier si les règles de gouvernance l’autorisent.
6. Anti-patterns à proscrire
Chunking naïf. Découper par taille fixe sans tenir compte de la structure documentaire dégrade la pertinence. Utiliser un parser structuré (Unstructured, LlamaParse, Docling) et un chunking sémantique ou hiérarchique.
Pas de reranker. Renvoyer directement les top-k du vector store au LLM injecte du bruit dans le contexte. Un reranker (BGE-reranker, ColBERT) améliore la précision sur les corpus où le top-k contient du bruit ; le gain se mesure sur le golden dataset.
Embeddings non versionnés. Changer de modèle d’embeddings sans réindexer produit des résultats incohérents. Versionner embeddings et vector store comme on versionne le code, prévoir migration et double indexage pendant la transition.
Absence de golden dataset. Sans dataset de référence (100 à 300 questions et réponses validées par les métiers), il est impossible de mesurer la qualité ou d’évaluer une modification. Le golden dataset précède le développement.
LLM frontier pour tout. Utiliser un modèle frontier pour des reformulations triviales gonfle la facture sans gain qualité. Router selon la complexité.
Pas de cache sémantique. Un cache sémantique (Redis vector, GPTCache) réduit les coûts et la latence sur les requêtes répétitives ; le gain dépend du profil de trafic et se valide par benchmark interne.
Pas de garde-fous. Sans guardrails (filtrage entrée, filtrage sortie, détection prompt injection, détection PII), le RAG expose à des fuites de données, des hallucinations non détectées et des comportements adverses.
Pas d’évaluation continue. Sans pipeline d’évaluation (Ragas, Phoenix Arize, Langfuse evals), la qualité dérive avec les ajouts au corpus et les évolutions de modèle.
7. Évaluation et qualification
Quatre familles de métriques structurent l’évaluation :
- Faithfulness : la réponse est-elle ancrée dans le contexte récupéré, sans hallucination ?
- Answer relevancy : la réponse adresse-t-elle effectivement la question posée ?
- Context precision et context recall : les chunks récupérés sont-ils pertinents et exhaustifs ?
- Indicateurs SRE et FinOps : latence p50 et p95, coût par requête, taux de cache hit, taux de garde-fous déclenchés.
Frameworks open source de référence en 2026 : Ragas, TruLens, Phoenix Arize, Langfuse evals. Benchmarks publics utiles pour calibrer un retriever : BEIR (information retrieval), MTEB (embeddings), MKQA et MLDR (multilingue, contextes longs). Le golden dataset interne de 100 à 300 paires question-réponse, validé par les métiers, reste le juge de paix sur les cas d’usage réels.
8. Conformité : ce que l’architecture aide à documenter
Un RAG n’est pas classé haut risque par nature. Son classement au titre de l’AI Act dépend de sa finalité, de son secteur d’usage et du rôle de l’organisation dans la chaîne de valeur IA. Le rôle de l’organisation (provider, deployer, importer, distributor au sens de l’AI Act) conditionne les obligations applicables.
| Référentiel | Ce qui s’applique | Ce que l’architecture RAG souverain documente |
|---|---|---|
| AI Act (UE 2024/1689) | Pratiques interdites depuis le 2 février 2025, obligations GPAI depuis le 2 août 2025. L’accord provisoire du 7 mai 2026 sur le Digital Omnibus prévoit un report au 2 décembre 2027 pour les systèmes Annexe III et au 2 août 2028 pour certains systèmes Annexe I. | Documentation technique, journalisation des inférences, supervision humaine, gestion des risques, mesures de cybersécurité |
| RGPD (UE 2016/679) | Tout traitement de données personnelles présentes dans le corpus | Base légale, minimisation, droits des personnes, AIPD si applicable, registre des traitements |
| NIS2 (UE 2022/2555) | Entités essentielles et importantes dans les secteurs critiques (énergie, santé, transports, banque, infrastructures numériques, administration publique) | Politique sécurité du SI, gestion des incidents, continuité, chaîne d’approvisionnement, contrôle d’accès |
| ISO/IEC 42001:2023 | Système de management de l’IA, publié en décembre 2023 | Politique IA, gouvernance, gestion du cycle de vie, supervision, amélioration continue |
| NIST AI RMF 1.0 et NIST AI 600-1 | Cadre américain transverse (RMF janvier 2023) et profil génératif (NIST AI 600-1, juillet 2024) | Cartographie des risques GenAI, mesures, gouvernance, supervision |
| SecNumCloud (ANSSI) | Charges sensibles non classifiées sur offre qualifiée | Choix d’hébergeur qualifié sur l’offre cible, périmètre contractualisé |
| HDS | Hébergement de données de santé | Choix d’hébergeur HDS, contractualisation, traçabilité |
Sanctions AI Act (article 99) : jusqu’à 35 millions d’euros ou 7 % du chiffre d’affaires mondial pour les pratiques interdites, 15 millions ou 3 % pour les autres obligations applicables aux opérateurs, 7,5 millions ou 1 % pour information incorrecte aux autorités.
Un RAG souverain ne devient pas conforme par défaut. Il facilite la démarche en exposant les couches techniques à l’audit. La qualification finale dépend du cas d’usage, du déployeur et de l’analyse d’impact.
9. Méthode TW3 : cadrer un pilote en six semaines
La méthode TW3 permet de cadrer et lancer un pilote RAG souverain en six semaines, avec un socle d’architecture, d’évaluation et d’observabilité prêt pour l’industrialisation. La conformité finale dépend du cas d’usage et de l’organisation cliente.
Semaine 1 : audit corpus et cas d’usage. Inventaire des sources, volumétrie, qualité, ACL, fréquence de mise à jour. Cadrage des cas d’usage prioritaires (Q&R, synthèse, génération assistée, recherche augmentée), des utilisateurs cibles et des contraintes (souveraineté, latence, budget, conformité).
Semaine 2 : golden dataset et critères de succès. Construction du golden dataset (100 à 300 paires question-réponse validées par les métiers). Définition des indicateurs cibles (faithfulness, answer relevancy, context precision, latence p95, coût par requête).
Semaine 3 : choix composants et architecture. Décisions vector store, embeddings, LLM, serveur d’inférence, observabilité, hébergement. Schéma d’architecture, schéma de déploiement, plan de capacité, première analyse d’impact AI Act et RGPD, cartographie des données personnelles.
Semaine 4 : prototype indexation et retrieval. Pipeline d’ingestion, parsing, chunking, indexation. Tests de retrieval sur le golden dataset, calibration du reranker, indexation hybride dense plus sparse, ACL au plus tôt.
Semaine 5 : intégration LLM et mise en production progressive. Intégration LLM à poids ouverts via vLLM, templating des prompts, garde-fous, cache sémantique. Mise en production sur périmètre pilote (typiquement 50 à 100 utilisateurs).
Semaine 6 : observabilité et industrialisation. Instrumentation Langfuse, dashboards, alerting, procédure de rollback, plan d’évolution. Transfert de compétences vers l’équipe interne.
Livrables types : note d’architecture, golden dataset versionné, pipeline d’évaluation continue, runbook d’exploitation, dashboard d’observabilité, feuille de route à 12 mois. La gouvernance prévoit un comité hebdomadaire (métier, IT, conformité), un sponsor exécutif, un référent IA mobilisable.
Démonstrations Racine.AI et ateliers RAG souverain sur le stand TW3 Partners, Hall 7.2, Allée C, Stand 74, VivaTech 2026, du 17 au 20 juin 2026. Sessions architecture sur rendez-vous via tw3partners.fr.
10. Cas d’usage sectoriels
Juridique. Recherche jurisprudentielle, analyse contractuelle, due diligence. Le RAG souverain préserve la confidentialité client-avocat et la traçabilité des sources citées. Chunking attentif aux structures (articles, alinéas, considérants).
Santé. Aide à la décision clinique, recherche documentaire médicale, codage. Hébergement HDS obligatoire pour les corpus contenant des données patient. Évaluation clinique formelle avant déploiement.
Défense et secteur public sensible. Aide à la rédaction, recherche documentaire, synthèse opérationnelle. Full on-premise ou cloud SecNumCloud, air gap selon la classification, LLM à poids ouverts auditables (Mistral, Llama), exclusion des modèles soumis à juridiction tierce pour les périmètres sensibles.
Banque et assurance. Conformité KYC et lutte anti-blanchiment, support client, recherche dans les politiques internes. Couplage RAG souverain et observabilité fine, traçabilité des décisions automatisées au sens du RGPD et de l’AI Act.
Énergie et industrie. Documentation technique, retours d’expérience, brevets. Volumes massifs, vector store de classe Milvus ou Qdrant, embeddings multilingues, intégration avec les outils GED existants.
11. FAQ
Qu’est-ce qu’un RAG souverain ?
Un RAG souverain opère sur une infrastructure maîtrisée (on-premise ou cloud souverain qualifié) avec des composants à poids ouverts auditables. Dans la variante stricte, corpus, embeddings, vector store, prompts, traces et inférence restent dans le périmètre. Un RAG classique peut s’appuyer sur des API tierces non européennes et des modèles fermés, ce qui ne convient pas aux secteurs régulés ou aux corpus sensibles.
Un RAG est-il automatiquement haut risque au sens de l’AI Act ?
Non. Le classement dépend de la finalité, du secteur d’usage et du rôle de l’organisation (provider, deployer). L’analyse se mène cas par cas, à la charge du déployeur.
Quel ordre de grandeur de coût pour un RAG souverain en production ?
Sur un corpus moyen (1 à 5 millions de chunks, 100 à 500 utilisateurs actifs), l’enveloppe typique observée chez TW3 Partners s’établit entre 80 000 et 250 000 euros pour le build (architecture, intégration, garde-fous, observabilité) et entre 30 000 et 120 000 euros annuels pour le run (infrastructure, MCO, optimisations, évaluation continue). Le coût varie selon le mix on-premise vs cloud souverain et le niveau de service.
Quel LLM à poids ouverts privilégier en 2026 ?
Mistral pour les organisations cherchant un acteur européen et un bon support des usages francophones ; Llama pour la richesse de l’écosystème ; Phi pour l’edge ou les sous-tâches compactes. Qwen reste à écarter pour les périmètres souverains sensibles en raison de la juridiction. Le choix final se valide sur le golden dataset.
Quel vector store entre pgvector, Qdrant et Weaviate ?
pgvector si PostgreSQL est déjà en production et si la volumétrie reste de l’ordre de plusieurs millions de chunks. Qdrant pour les déploiements ambitieux avec hybride dense plus sparse et scalabilité. Weaviate pour la modularité (hybrid search, reranker intégré). Milvus pour les volumétries dépassant le milliard de vecteurs.
Comment positionner un RAG souverain face à l’AI Act ?
Documenter l’architecture, versionner modèles et datasets, instrumenter l’observabilité (journal d’inférences), classer le système (haut risque ou non) selon la finalité, conduire l’analyse d’impact si applicable, prévoir une procédure d’arrêt, organiser le suivi post-déploiement, désigner un responsable conformité IA. ISO/IEC 42001:2023 sert de référentiel d’audit.
Différence entre RAG, fine-tuning et agents IA ?
Le RAG injecte du contexte récupéré dans le prompt. Le fine-tuning modifie les poids du modèle pour spécialiser son comportement. Les agents IA orchestrent des actions (recherche, calcul, appels API, outils) au-delà de la simple génération. Les trois se combinent selon le cas d’usage.
Le reranker est-il indispensable ?
Pour la majorité des cas d’usage, oui. Le retriever rappelle large (top 20 à 50 candidats), le reranker affine la précision (top 3 à 5 finaux). BGE-reranker et ColBERT offrent un excellent rapport qualité-coût.
Comment évaluer la qualité en production ?
Construire un golden dataset (100 à 300 paires question-réponse), mesurer faithfulness, answer relevancy, context precision et context recall, latence p95 et coût par requête. Outils : Ragas, TruLens, Phoenix Arize, Langfuse evals. Pipeline d’évaluation continue à chaque déploiement.
Quels secteurs adoptent prioritairement le RAG souverain en 2026 ?
Les secteurs régulés européens (défense, énergie, santé, banque assurance, secteur public) sont en première ligne. SecNumCloud et HDS sont les deux référentiels les plus cités pour les corpus sensibles. Industrie et services professionnels suivent, en particulier sur les corpus techniques (documentation produit, retours d’expérience, brevets).
Quelle place pour Mistral et les acteurs français dans la stack ?
Mistral AI propose des modèles à poids ouverts (Mistral 7B, Mixtral, Codestral) et des modèles commerciaux via API (Mistral Large, Mistral Embed). La Série C de 1,7 milliard d’euros menée par ASML en septembre 2025 a consolidé son statut d’acteur européen majeur. LightOn (Paradigm), Giskard (évaluation et red-team), Hugging Face France et les hébergeurs souverains complètent l’écosystème.
Comment intégrer un RAG souverain avec une stack agentique ?
Le RAG fournit la couche knowledge ; les agents (orchestrés par LangGraph, AutoGen, CrewAI ou un routeur custom comme Racine.AI) consomment le RAG comme un outil parmi d’autres (recherche web, calcul, appels API métier, génération de code). Le pattern combine récupération, raisonnement et action.
Quelles métriques d’observabilité suivre ?
Latence p50 et p95 par étape, coût token par requête, taux de succès, taux de feedback positif, taux d’utilisation du contexte, dérive sémantique des embeddings, dérive du golden dataset, taux de cache hit, taux de garde-fous déclenchés. Dashboards Langfuse, Phoenix Arize ou OpenTelemetry.
Comment voir Racine.AI à VivaTech 2026 ?
Démonstrations au stand TW3 Partners, Hall 7.2, Allée C, Stand 74, du 17 au 20 juin 2026. Ateliers cadrage RAG souverain sur réservation via tw3partners.fr.
12. Sources
- Règlement (UE) 2024/1689 (AI Act), Journal officiel de l’Union européenne, 12 juillet 2024
- Accord provisoire du 7 mai 2026 sur le Digital Omnibus, Conseil de l’Union européenne et Parlement européen
- Directive (UE) 2022/2555 (NIS2), Journal officiel de l’Union européenne, 27 décembre 2022
- Règlement (UE) 2016/679 (RGPD)
- ANSSI, référentiel SecNumCloud et liste des prestataires qualifiés et en cours de qualification
- CNIL, recommandations IA et données personnelles
- Norme ISO/IEC 42001:2023, AI Management System, décembre 2023
- NIST AI Risk Management Framework 1.0, janvier 2023
- NIST AI 600-1, Generative AI Profile, juillet 2024
- S3NS, qualification SecNumCloud 3.2 de l’offre PREMI3NS (17 décembre 2025)
- OVHcloud, offres qualifiées SecNumCloud
- Outscale, offre Cloud on Demand qualifiée SecNumCloud
- NumSpot, procédure SecNumCloud sur services PaaS
- Scaleway, procédure SecNumCloud engagée
- Bleu (Capgemini et Orange), procédure SecNumCloud engagée
- Mistral AI, Série C de 1,7 milliard d’euros menée par ASML, septembre 2025
- BAAI, modèle BGE-M3 (multifonction, multilingue, 8192 tokens)
- vLLM, moteur d’inférence open source (PagedAttention, continuous batching)
- Qdrant, documentation hybrid search
- Ragas, framework d’évaluation RAG
- Langfuse, observabilité LLM
- MTEB, Massive Text Embedding Benchmark
- BEIR, benchmark information retrieval
- Documentation Llama (Meta)
- Documentation Mistral
- Programme officiel VivaTech 2026
