Le Project Deal : quand des agents IA négocient et concluent des affaires entre eux

·

·

Postes de travail dans les bureaux d’Anthropic avec plusieurs écrans montrant des négociations d’agents IA et des billets en euros posés sur un bureau.
Résumer cet article avec :

En avril 2026, Anthropic a dévoilé le Project Deal, une expérience interne où 69 agents IA autonomes représentaient des employés sur un marché de petites annonces fictif, mais avec de l’argent réel. Sur un Slack dédié, ces agents ont publié des annonces, négocié en langage naturel et finalisé 186 transactions pour plus de 3 440 euros de biens physiques, du snowboard au vélo pliant. L’étude met surtout en évidence un agent quality gap et une invisible inequality.


À retenir

  • Project Deal (testé en décembre 2025, révélé en avril 2026) a généré 186 transactions pour plus de 3 440 € avec de l’argent réel.
  • Les agents basés sur Claude Opus 4.5 ont conclu en moyenne deux transactions de plus par personne que ceux sur Claude Haiku 4.5.
  • Opus a vendu en moyenne 2,30 € plus cher par objet et acheté 2,10 € moins cher, démontrant un fort agent quality gap.
  • Les participants n’ont pas perçu cette inégalité : note d’équité identique (environ 4/7) pour tous, d’où le concept d’invisible inequality.
  • 46 % des employés se disent prêts à payer pour déléguer leur commerce à un agent autonome.
  • L’E-Sign Act reconnaît déjà la validité des contrats signés par des agents électroniques, mais le cadre réglementaire reste largement inexistant face aux risques de prompt injection et de manipulation financière.

Genèse d’une expérience

Annoncé en avril 2026, le Project Deal n’était pas une simple démonstration de laboratoire. Anthropic a transformé une partie de son bureau de San Francisco en terrain d’essai grandeur nature. Chaque employé recevait un budget de 86 € via une carte-cadeau et devait confier à un agent la mission de vendre ou d’acheter des objets réels.

L’objectif était double : observer si des autonomous agents pouvaient mener un agent-on-agent commerce complet et mesurer l’impact économique réel de la qualité du modèle utilisé. Le résultat est net : en quelques jours, les agents ont réalisé plus de 4 000 dollars d’échanges, soit environ 3 440 €, sans intervention humaine pendant la phase de négociation.

Du Slack à la livraison : comment fonctionnait ce marché

Le processus commençait par un entretien d’une dizaine de minutes entre l’employé et Claude. L’humain précisait les objets à vendre, sa liste d’achats, ses prix cibles et son style de négociation souhaité. Ces consignes étaient ensuite transformées en system prompts spécifiques.

Écran d’ordinateur affichant un espace de travail Slack avec des messages floutés d’agents IA, tandis qu’une personne emballe un petit colis pour l’expédition.
Du premier message sur Slack jusqu’à l’envoi du colis, les agents IA ont géré tout le cycle de la transaction entre eux.

Une fois déployés dans des canaux Slack dédiés, les agents prenaient la main. Ils rédigeaient les annonces, repéraient les correspondances, initiaient le contact, formulaient des offres et des contre-offres, puis concluaient les transactions. Tout cela en natural language negotiation, sans validation humaine intermédiaire.

Une semaine plus tard, les employés humains se chargeaient simplement d’honorer les contrats signés par leurs agents. Les objets physiques changeaient réellement de main. Parmi les exemples les plus marquants, un sac de 19 balles de ping-pong a été vendu sous le nom d’« orbs of possibility ».

Le fossé de performance entre Claude Opus 4.5 et Claude Haiku 4.5

L’une des données les plus utiles du Project Deal est la mesure de l’agent quality gap.

Les agents propulsés par Claude Opus 4.5 ont nettement dépassé leurs homologues Haiku 4.5. Ils ont conclu en moyenne deux transactions supplémentaires par personne. Sur le plan financier, les vendeurs Opus ont obtenu environ 2,30 € de plus par objet vendu, tandis que les acheteurs Opus ont payé 2,10 € de moins en moyenne.

L’écart le plus net concerne un vélo pliant cassé : l’agent Haiku l’a vendu 32,70 €, alors que l’agent Opus, sur un groupe témoin identique, l’a cédé pour 55,90 €. Donner des consignes de négociation « agressives » n’a presque rien changé. La qualité du modèle comptait bien plus que le ton imposé à l’agent.

L’invisible inequality, le résultat le plus troublant

Le constat le plus sensible ne porte pourtant pas sur la performance, mais sur la perception des utilisateurs.

Deux employés face à face avec leurs ordinateurs portables, l’un entouré de nombreux colis et l’autre presque sans ventes, illustrant un déséquilibre lié à la qualité de leurs agents IA.
Le concept d’« invisible inequality » montre comment certains agents IA captent plus de valeur que d’autres dans les mêmes conditions.

Malgré des résultats nettement inférieurs, les utilisateurs représentés par Haiku ont évalué l’équité des transactions à un niveau identique à ceux représentés par Opus, autour de 4 sur 7. Ils n’ont tout simplement pas vu qu’ils avaient été moins bien servis par un agent plus faible.

Anthropic parle d’invisible inequality : une IA plus performante peut capter de la valeur sans que son utilisateur perçoive la différence. Sur des plateformes comme eBay, Craigslist, Leboncoin ou Vinted, les écarts de performance pourraient donc peser directement sur les résultats des transactions.

Vers une redistribution économique silencieuse ?

Le sujet dépasse l’optimisation commerciale. Quand les agents négocient à la place des humains, l’écart entre modèles peut se traduire par un transfert discret de valeur d’un utilisateur vers un autre. Le prix final dépend alors autant de la qualité de l’agent que du bien échangé.

46 % des participants prêts à payer pour un agent marchand

Malgré ces alertes, l’intérêt reste réel. 46 % des employés d’Anthropic impliqués dans l’expérience ont dit qu’ils seraient prêts à payer pour un tel service de délégation commerciale dans leur vie quotidienne.

Le vide juridique et les risques de sécurité

Anthropic souligne elle-même l’absence de cadres politiques et juridiques adaptés. Si l’E-Sign Act américain reconnaît déjà la validité des contrats conclus par des agents électroniques, la question de la responsabilité en cas de litige, de fraude ou de manipulation reste ouverte.

Les risques techniques sont tout aussi clairs : prompt injection, jailbreaking d’agents financiers et concentration du pouvoir entre les mains des fournisseurs des modèles les plus performants. La Federal Trade Commission (FTC) devra suivre de près l’essor de ces agents commerciaux.


Sur le même Thème :

Laisser un commentaire

Trop d’infos IA ?

Inscrivez-vous à la newsletter pour recevoir un résumé hebdomadaire directement dans ta boite email (et rien d’autre)