Cursor Composer 2.5 sur le podium des LLMs de code, à faible coût

·

·

Développeur travaillant de nuit sur un ordinateur portable affichant l’interface de Cursor Composer 2.5 dans un bureau moderne avec plusieurs écrans de code.
Résumer cet article avec :

À peine dévoilé le 18 mai, Cursor Composer 2.5 se hisse au troisième rang mondial du classement des agents de codage, avec un bond de 14 points en deux mois. Son coût par tâche, inférieur à 0,50 dollar, laisse loin derrière les tarifs de Claude Opus 4.7 et de GPT-5.5. Une progression qui mêle prouesse technique et pression sur les prix pour l’éditeur Anysphere.


À retenir

  • Composer 2.5 atteint la 3e place de l’Artificial Analysis Coding Agent Index avec un score de 62.
  • Son coût par tâche – 0,06 € en mode standard – est 10 à 60 fois inférieur à celui des agents concurrents.
  • L’architecture repose sur un post‑entraînement massif (85 % du budget calcul) et une approche Mixture-of-Experts.
  • Un partenariat avec SpaceX et xAI prévoit l’entraînement d’un modèle propriétaire sur le cluster Colossus 2.

Un agent de codage à la fois performant et bon marché change la donne pour les équipes de développement. Cursor montre qu’une IA verticale peut tenir tête aux modèles généralistes, tout en faisant chuter les coûts. Les éditeurs de logiciels comme les entreprises qui automatisent leur code y verront un signal net.

Performance et prix : l’écart avec ses rivaux

Selon l’Artificial Analysis Coding Agent Index, Composer 2.5 obtient 62 points, derrière les versions maximales de Claude Opus 4.7 (66) et de GPT-5.5 (65). Le progrès est net : la version précédente était à 48 points. Sur l’épreuve multilingue SWE-Bench Multilingual, il affiche 79,8 % de résolution, presque au niveau de Claude Opus 4.7 (80,5 %) et devant GPT-5.5 (77,8 %).

Responsable technique analysant sur plusieurs écrans les performances et les coûts de différents agents de codage, avec Cursor Composer 2.5 mis en avant.
Avec des performances élevées et des tarifs très bas, Cursor Composer 2.5 se retrouve face aux géants du secteur.

Des tarifs 10 à 60 fois inférieurs

L’écart devient encore plus net sur les prix. Un agent Claude Opus 4.7 max facture 3,49 € par tâche, GPT-5.5 xhigh 4,10 €, quand Composer 2.5 reste à 0,06 € en mode standard et 0,37 € en mode rapide. Sur des sessions agentiques de centaines de milliers de jetons, la différence pèse lourd. Une promotion temporaire double les quotas des abonnés Pro et Business jusqu’au 25 mai.

ModèleCoût par tâche (€)
Cursor Composer 2.5 Standard0,06
Cursor Composer 2.5 Fast0,37
Claude Opus 4.7 max3,49
GPT-5.5 xhigh4,10

La recette technique de Composer 2.5

Post‑entraînement ciblé et Targeted RL

Le modèle s’appuie sur la base open‑source Kimi K2.5 et a consacré 85 % de son budget de calcul au post‑entraînement et à l’apprentissage par renforcement. La pièce maîtresse, Targeted RL with Textual Feedback, ajoute des indices textuels quand l’agent se trompe, sans casser l’apprentissage global. Résultat : moins d’hallucinations de commandes et moins de boucles répétitives.

Ingénieur en apprentissage automatique surveillant un mur d’écrans dans un centre de données rempli de serveurs GPU pour l’entraînement d’un agent de codage IA.
L’efficacité de Composer 2.5 vient de son architecture et d’un post-entraînement massif.

Données synthétiques et calibration d’effort

Le volume de tâches synthétiques a été multiplié par 25 par rapport à la version 2, avec des scénarios de « feature deletion » où l’agent doit nettoyer du code tout en gardant les tests unitaires intacts. L’architecture Mixture-of-Experts, avec environ 32 milliards de paramètres actifs sur un total d’un billion, réduit le coût de chaque inférence. Une calibration d’effort ajuste aussi les ressources selon la difficulté réelle de la tâche.

Malgré ces atouts, Composer 2.5 accuse encore 13 points de retard sur GPT-5.5 dans l’épreuve Terminal-Bench 2.0, un indicateur clé pour les flux DevOps. Anysphere veut combler cette lacune avec son prochain modèle, entraîné « from scratch ».

Pour cela, l’entreprise a noué un partenariat avec SpaceX et xAI. Le successeur de Composer 2.5 mobilisera le cluster Colossus 2 et ses 1 million d’équivalents GPU H100, soit une puissance de calcul décuplée. Cursor ne suit plus la limite technologique. Il veut la repousser.


Sur le même Thème :

Laisser un commentaire

Trop d’infos IA ?

Inscrivez-vous à la newsletter pour recevoir un résumé hebdomadaire directement dans ta boite email (et rien d’autre)