Le risque d’exfiltration via l’IA — IT Playbook

Trois vecteurs, pas un

La plupart des analyses de risque IA se concentrent sur un seul vecteur : le collaborateur qui colle des données sensibles dans un prompt ChatGPT. C’est le scénario le plus visible — et le moins problématique en pratique. Trois vecteurs cohabitent, classés ici par ordre de difficulté de contrôle croissante.

15 %

Prompts envoyés à des outils IA publics qui contiennent des données confidentielles d’entreprise.

LayerX Security, Browser Security Report 2024

6,7 %

Code source d’entreprise qui apparaît dans les prompts de développeurs vers les assistants IA.

Cyberhaven, AI in the Workplace 2024

Outils DLP classiques capables d’inspecter le contenu d’un prompt envoyé via le navigateur.

Constat

Vecteur 1 — le prompt direct

Un collaborateur copie-colle un extrait de contrat, un fichier client ou du code dans un outil IA grand public. Risque connu, médiatisé, documenté. Sa résolution est relativement directe : combinaison de charte d’usage, formation, extension navigateur de détection, et liste blanche d’outils approuvés. C’est le vecteur le plus simple à contrôler — paradoxalement, c’est aussi celui qui occupe la majorité des conversations sur le sujet.

Vecteur 2 — les intégrations natives

De plus en plus d’outils SaaS embarquent une fonctionnalité IA intégrée : résumé automatique des emails, assistant de rédaction, analyse documentaire, recherche conversationnelle. Notion AI, Copilot, Slack AI, Gong AI, Salesforce Einstein, et des dizaines d’autres. Chacune de ces fonctionnalités ingère par défaut les contenus de l’outil hôte — soit l’ensemble des documents, messages, données qui y vivent.

Le risque ici n’est pas qu’un collaborateur exfiltre activement — c’est que la fonctionnalité IA, activée par défaut, alimente un modèle avec l’intégralité du contenu de l’outil sans qu’aucune action humaine ne soit nécessaire. Les conditions contractuelles varient considérablement d’un éditeur à l’autre, et changent fréquemment.

Messagerie / mail

Documents collaboratifs

CRM et données client

Code et tickets

RH et paie

Fig. 16.1Répartition typique des données exposées à une IA tierce via fonctionnalités natives activées dans une ETI.Estimation Kabeen, observations 2024

La réponse opérationnelle passe par trois actions : recenser les fonctionnalités IA activées dans chaque SaaS du parc, lire les clauses contractuelles relatives à l’usage des données pour l’entraînement, et désactiver par défaut toute fonctionnalité non explicitement validée. C’est un sujet qui relève à la fois de la cartographie et de la gouvernance IA.

Vecteur 3 — les agents autonomes

Le vecteur le plus récent et le moins instrumenté. Un agent IA autonome accède à plusieurs sources de données via des connecteurs (calendrier, documents, CRM, code, web), exécute des actions en chaîne, et produit un résultat. À chaque étape, des données traversent des systèmes en dehors de la trajectoire prévue par l’utilisateur — et souvent en dehors de l’infrastructure de l’entreprise.

Le risque tient à trois caractéristiques inédites de ce vecteur. Les permissions sont combinatoires — un agent qui cumule les droits d’accès au CRM, au calendrier et à la messagerie peut exfiltrer ce qu’aucun des trois ne permet seul. Les actions sont récursives — un agent peut en déclencher un autre, créant des chaînes d’accès difficiles à auditer. Et le contexte d’invocation peut être manipulé par injection de prompt — une donnée externe lue par l’agent peut l’instruire à exfiltrer.

Ce qu’il faut retenir

Trois vecteurs distincts, pas un seul. Le vecteur médiatique (prompt direct) est le moins problématique en pratique.
Les intégrations natives IA dans le SaaS existant exposent par défaut la majorité du contenu des outils — sans action humaine.
Les agents autonomes introduisent des risques inédits : combinatoire de permissions, récursivité, manipulation par injection de prompt. À traiter avec un cadre dédié dès maintenant.