Données prêtes pour l'IA : seules 4 % des entreprises françaises y sont

L'IA générative occupe l'agenda de tous les comités de direction. Les éditeurs vendent des agents, les cabinets vendent de la transformation, les médias vendent du rêve. Pourtant, un chiffre passé presque inaperçu en avril 2026 résume mieux la situation qu'un livre blanc entier : seules 4 % des entreprises françaises disposent de données réellement prêtes pour l'IA. Pas 40 %. Pas 14 %. Quatre.

Le chiffre qui change la lecture du marché

L'étude IDC reprise par LeMagIT en avril 2026 chiffre la part des entreprises françaises avec des données « AI-ready » à 4 %, contre 8 % en moyenne européenne. Le même rapport indique que 13 % des organisations françaises ont déployé une brique de RAG — un moteur capable d'interroger leur documentation interne via un modèle de langage. Le reste lit des promesses sur LinkedIn.

L'écart entre l'enthousiasme affiché et la réalité technique est devenu vertigineux. En 2024, le sujet des dirigeants était : « par où commencer ? ». En 2026, beaucoup ont commencé — et se cognent au même mur. Les modèles fonctionnent. Les outils sont disponibles. Mais la donnée qui devrait les nourrir est éclatée entre quinze SaaS, dupliquée dans des fichiers Excel, mal cataloguée, non documentée. L'agent IA tape dans le vide.

Ce que « données prêtes pour l'IA » veut dire concrètement

Derrière l'expression, quatre exigences cumulatives — l'IA ne fonctionne réellement que lorsque les quatre sont satisfaites.

1. La qualité

Données complètes, à jour, sans doublons, sans incohérence entre systèmes. Un client présent trois fois avec trois orthographes différentes dans le CRM, c'est trois clients pour un modèle de langage. Une référence produit qui change de nom entre l'ERP et la GED, c'est une réponse fausse garantie.

2. La gouvernance

Qui est propriétaire de quoi, qui peut accéder à quoi, qui valide une modification. Sans cette couche, impossible de faire confiance à une sortie d'IA — et impossible d'expliquer à un auditeur d'où vient une décision automatisée.

3. L'accessibilité technique

Les données doivent être interrogeables par un système — API, base structurée, entrepôt. Un classeur Excel posé sur un SharePoint partagé n'est pas une donnée accessible : c'est un fichier. La différence saute aux yeux dès qu'un agent IA est censé exploiter le contenu en temps réel.

4. La structuration RAG-ready

Le RAG (Retrieval-Augmented Generation) consiste à brancher un modèle de langage sur un corpus documentaire interne pour qu'il puisse répondre sur la base de cette documentation plutôt que sur ses seules connaissances. Pour qu'un RAG fonctionne, les documents doivent être découpés, indexés, tagués, vectorisés. Beaucoup d'entreprises confondent « avoir une GED » et « avoir un corpus exploitable ». Les deux n'ont presque rien à voir.

Pourquoi le sujet explose maintenant

Le décalage entre les ambitions IA et la réalité data ne date pas de 2026. Mais trois mouvements ont rendu le mur visible.

D'abord, l'étude Bpifrance Le Lab publiée fin 2025 sur 1 200 PME françaises a identifié 14 familles de cas d'usage IA applicables au quotidien des dirigeants, dont 93 % jugées à fort impact productivité. Le diagnostic est largement partagé : les opportunités existent. Le problème n'est pas l'idée, c'est l'exécution.

Ensuite, l'arrivée des agents IA — capables d'enchaîner des actions, d'interroger plusieurs sources, de produire des livrables complets — a déplacé le curseur. Un chatbot pouvait se contenter de réponses approximatives. Un agent qui traite des factures, planifie une tournée ou répond à un client sur la base de la documentation interne ne le peut plus. Le besoin de données fiables est devenu un prérequis dur.

Enfin, les premiers déploiements à grande échelle ont commencé à publier leurs retours. Et le verdict est constant : ceux qui ont une donnée propre vont vite. Les autres relancent un chantier data-engineering qu'ils croyaient avoir évité.

L'agent IA n'est jamais le premier chantier. C'est le dernier.

L'exemple inverse : le Medef et son RAG souverain

Pour montrer ce que produit une donnée préparée, un cas récent fait référence en France. En mars 2026, le Medef a annoncé le déploiement d'un RAG interne sur 20 000 documents (rapports, prises de position, notes juridiques, archives institutionnelles), hébergé en infrastructure souveraine. L'outil sert à ses équipes internes pour retrouver instantanément une position officielle, un précédent ou une argumentation.

Le projet n'a rien de spectaculaire côté algorithme — c'est un RAG classique. Sa réussite tient à la préparation amont : un corpus catalogué, des métadonnées propres, une gouvernance claire sur ce qui est public, interne ou confidentiel. La donnée a été traitée avant le modèle. Résultat : l'outil sert dès le premier mois, et la phase « pilotage » dure six semaines, pas dix-huit mois.

Méthode pour passer de 4 % à data-ready

Sortir des 96 % n'est pas un projet IA. C'est un projet data, et il se conduit en quatre étapes — dans cet ordre.

1. Auditer la maturité réelle

Cartographier les sources de données existantes, leur volume, leur qualité, leur accessibilité technique. Identifier les redondances, les silos, les fichiers Excel qui font office de base de données. Ce premier inventaire prend rarement plus de deux à trois jours en PME. Il fait souvent émerger que 30 à 50 % des outils internes contiennent des données dupliquées entre eux.

2. Prioriser les cas d'usage par maturité data

Toutes les ambitions IA ne se valent pas. Certaines s'appuient sur des données déjà propres (la comptabilité, les commandes, les stocks). D'autres demandent un chantier amont (la documentation interne éclatée, les emails clients, les contrats). Démarrer par les cas où la donnée existe déjà permet de produire un résultat visible en quelques semaines — et de financer la suite.

3. Cadrer la donnée avant le modèle

Pour chaque cas d'usage retenu : centraliser les sources, mettre en place les pipelines de mise à jour, documenter les règles métier, fixer les droits d'accès. Ce travail représente 60 à 80 % du temps d'un projet IA réussi. L'IA elle-même, branchée en bout de chaîne, prend dix à vingt pour cent.

4. Gouverner dans la durée

La donnée n'est jamais figée. Un nouveau SaaS apparaît, un référentiel change, un service crée une nouvelle table. Sans rituel de gouvernance — référent data, comité mensuel, suivi de l'inventaire — l'entreprise revient à son point de départ en moins d'un an. Cette fonction peut être interne (un référent data dédié) ou externalisée via un partenariat continu.

Le rôle d'un partenaire Data & IA

Préparer la donnée n'est pas un livrable ponctuel. C'est une fonction qui dure aussi longtemps que les systèmes évoluent — c'est-à-dire toujours. Cartographier, prioriser, brancher, documenter, ajuster mois après mois. Cette posture continue est exactement ce que couvre l'offre Partenaire Data & IA d'OPS Conseil : une journée par semaine dédiée, un weekly meeting avec le dirigeant, un backlog partagé qui rend visibles les arbitrages data et IA au fil du temps.

L'audit initial — gratuit, demi-journée, sans engagement — sert exactement à mesurer où en est votre donnée. À la sortie, vous repartez avec une cartographie réelle de votre maturité data, l'identification des deux à trois cas d'usage IA atteignables sous trois mois, et la liste des chantiers data à mener avant de brancher quoi que ce soit.

Sources citées dans cet article

LeMagIT — IA documentaire : les entreprises françaises ne sont toujours pas prêtes (avril 2026)
PME WEB — En 2026, l'IA progresse dans les PME françaises sans encore transformer leurs pratiques
Bpifrance Big Media — RAG : comment l'adopter en entreprise
Archimag — Le Medef mise sur l'IA pour exploiter son corpus documentaire interne (mars 2026)
Comarketing-News — Intelligence Artificielle : les entreprises françaises déjà dépassées ?
Bpifrance Le Lab — Livre blanc IA & PME (analyse de 1 200 entreprises françaises, 2024-2025)

Données prêtes pour l'IA : seules 4 % des entreprises françaises y sont.