Les systèmes d’agents basés sur les LLM exposent aujourd’hui des centaines d’API sans filtrage, ce qui entraîne des dépenses de tokens colossales et une perte de précision. Le Model Context Protocol (MCP) tente d’unifier l’accès, mais son absence de gestion du contexte et de sécurité laisse les agents AI vulnérables. La technique du Tool Masking apparaît comme une réponse pragmatique pour réduire l’entropie de choix et restaurer la cohérence des agents à l’échelle de l’entreprise.
À retenir
- Chaque API comportant 28 paramètres consomme environ 1 633 tokens ; 37 outils dépassent 6 200 tokens.
- Le taux d’accomplissement des tâches par les agents multi‑AI reste autour de 30 % (TheAgentCompany, Carnegie Mellon).
- Le MCP standardise la découverte d’outils mais ne fournit pas de mécanisme d’autorisation intégré.
- Le Tool Masking réduit la surface d’outil, diminue la latence et améliore la robustesse.
- Des pratiques comme le Schema Shrink ou le Role‑Scoped View permettent d’adapter les masques aux besoins de chaque agent.
Coûts cachés des API exposées aux agents IA
L’exposition brute des APIs à l’ensemble des agents AI engendre des coûts cachés qui se manifestent surtout au niveau des tokens et de la latence. Une API typique avec 28 paramètres consomme près de 1 633 tokens lorsqu’elle est intégrée dans le prompt d’un LLM. En multipliant ce modèle à 37 outils, on atteint plus de 6 200 tokens par appel, ce qui surcharge la fenêtre de contexte du modèle.
Impact financier des tokens en flux continu
Dans une organisation moyenne, le débit de plusieurs millions de tokens par minute devient rapidement critique. Chaque token supplémentaire alourdit la facture d’utilisation des services d’IA, souvent facturés à la millierième de centime. Converti en euros (taux = 0,8549 € / USD), un surplus de 1 000 tokens coûte environ 0,86 €, ce qui, à l’échelle de plusieurs dizaines de milliers de requêtes journalières, représente plusieurs milliers d’euros par mois.
Dégradation de la précision et de la vitesse d’exécution
Le surplus de tokens augmente la latence des réponses, car le modèle doit traiter davantage d’informations avant de produire une sortie. Par ailleurs, la surcharge de la fenêtre de contexte entraîne souvent le truncation de données essentielles, réduisant la précision des recommandations et augmentant les erreurs d’exécution. Les benchmarks du Nexus Function Calling Leaderboard montrent une chute de la précision dès que le nombre de domaines d’outils dépasse cinq catégories.
Complexité croissante et modes de défaillance
Les systèmes multi‑agents actuels affichent des taux d’accomplissement des tâches d’environ 30,3 % sur des scénarios réalistes (TheAgentCompany, Carnegie Mellon). Cette faiblesse provient notamment des boucles infinies d’appels API et de la « croissance illimitée de la mémoire », qui détériore la capacité de raisonnement du modèle. De plus, l’exposition sans filtre rend les agents vulnérables aux tool poisoning et tool shadowing, où des paramètres malveillants ou des appels détournés altèrent le comportement attendu.

MCP : un standard prometteur mais incomplet
Le Model Context Protocol (MCP) a été présenté comme le « USB‑C de l’AI », offrant une méthode uniforme de découverte et d’invocation d’outils.
Un standard pour la connectivité AI
Le MCP décrit les métadonnées d’une API, gère l’authentification au niveau transport et permet une communication bidirectionnelle en temps réel. Il est déjà intégré dans les SDK d’OpenAI, le Copilot de VS Code et les directives d’AWS, facilitant ainsi le développement d’applications contextuellement conscientes comme les assistants clients ou les gestionnaires financiers personnels.
Lacunes du protocole pour la gestion du contexte
Le protocole se concentre uniquement sur l’échange de contexte ; il ne spécifie pas comment les applications exploitent les LLM ou comment le contexte est maintenu entre les appels. En pratique, cela signifie que chaque intégration doit implémenter son propre mécanisme de suivi d’état, ce qui augmente la complexité et crée des incohérences entre les services REST classiques et les flux Server‑Sent Events (SSE) introduits pour la connexion à distance.
Défis de sécurité et d’implémentation
Le MCP ne fournit aucun mécanisme d’autorisation intrinsèque, reposant sur des solutions externes pour l’authentification. Cette absence de garde-fou ouvre la porte aux attaques d’injection de prompts, où un acteur malveillant insère du texte manipulé pour détourner le comportement de l’agent. De plus, le protocole ne propose pas de normes de versioning ou de gouvernance des outils, ce qui complique la mise à jour sécurisée des API au fil du temps.

Le Tool Masking : réduire l’entropie et optimiser les performances
Le Tool Masking consiste à présenter aux LLM une version allégée et ciblée de chaque API, afin de limiter les choix superflus et d’améliorer la qualité des réponses.
Définition et principes fondamentaux du Tool Masking
Le masquage d’outil agit comme une couche intermédiaire qui filtre la surface d’outil avant que le modèle ne l’interprète. Au lieu d’exposer l’intégralité d’une API (« tech‑up »), on ne révèle que les paramètres requis pour le cas d’usage (« use-case down »). Cette approche ne nécessite aucun recodage du gestionnaire (handler) et s’appuie sur des templates Jinja pour ajuster dynamiquement les schémas d’entrée et de sortie.
Bénéfices opérationnels et stratégiques
En réduisant l’entropie de choix, le Tool Masking diminue le nombre de tokens consommés, ce qui se traduit immédiatement par une latence plus faible et une facture d’IA allégée. Sur le plan stratégique, il offre la possibilité de créer des agents AI spécialisés : chaque rôle (support, finance, développement) peut recevoir un masque différent, évitant ainsi la confusion entre fonctionnalités non pertinentes.
Le Tool Masking comme ingénierie de prompt configurable
Le nom, la description et le schéma d’entrée d’un outil font partie du prompt. En les intégrant dans un masque versionné, on stabilise le « contrat » entre le modèle et l’API, limitant les fluctuations dues à des modifications de prompt externes. Les bonnes pratiques recommandent de co‑localiser les instructions d’utilisation avec le masque, de versionner chaque masque et d’appliquer des valeurs par défaut ou des arguments injectés par le système pour renforcer la sécurité (prévention du tool poisoning).
Vers des agents AI robustes : défis et perspectives d’avenir
Les futures architectures d’agents devront dépasser la simple connexion d’outils pour offrir une autonomie fiable et sécurisée.
Évolution des architectures d’agents
Des projets comme LangGraph et Microsoft AutoGen introduisent des flux de travail cycliques et stateful, où les agents peuvent mémoriser des états, déclencher des boucles conditionnelles et collaborer entre eux. Cette évolution vise à réduire la dépendance aux appels répétés d’API et à améliorer la cohérence des réponses sur le long terme.
Sécurité et robustesse des systèmes d’IA
Le manque de garde-fou inhérents au MCP et aux interfaces exposées nécessite des couches de protection supplémentaires. La mise en place de filtres de validation, la détection d’injection de prompts et le contrôle d’accès granulaire sont désormais considérés comme indispensables. Les équipes de sécurité recommandent de combiner le Tool Masking avec des systèmes de Retrieval‑Augmented Generation (RAG) pour sélectionner dynamiquement les outils les plus pertinents, limitant ainsi la surface d’exposition.
Impact sur le développement et l’entreprise
Les plateformes low‑code telles que Dify ou n8n rendent la création d’agents accessibles aux métiers non techniques, tout en intégrant des fonctionnalités de versioning et de suivi d’exécution. Cette démocratisation entraîne une adoption massive au sein des entreprises, qui constatent des économies de coûts grâce à la réduction de l’entropie de choix et à la rationalisation des flux de travail. Les gains de marge observés dépassent souvent les 10 % dans les départements où les agents AI remplacent les processus manuels répétitifs.
















