À peine dévoilé le 18 mai, Cursor Composer 2.5 se hisse au troisième rang mondial du classement des agents de codage, avec un bond de 14 points en deux mois. Son coût par tâche, inférieur à 0,50 dollar, laisse loin derrière les tarifs de Claude Opus 4.7 et de GPT-5.5. Une progression qui mêle prouesse technique et pression sur les prix pour l’éditeur Anysphere.
À retenir
- Composer 2.5 atteint la 3e place de l’Artificial Analysis Coding Agent Index avec un score de 62.
- Son coût par tâche – 0,06 € en mode standard – est 10 à 60 fois inférieur à celui des agents concurrents.
- L’architecture repose sur un post‑entraînement massif (85 % du budget calcul) et une approche Mixture-of-Experts.
- Un partenariat avec SpaceX et xAI prévoit l’entraînement d’un modèle propriétaire sur le cluster Colossus 2.
Un agent de codage à la fois performant et bon marché change la donne pour les équipes de développement. Cursor montre qu’une IA verticale peut tenir tête aux modèles généralistes, tout en faisant chuter les coûts. Les éditeurs de logiciels comme les entreprises qui automatisent leur code y verront un signal net.
Performance et prix : l’écart avec ses rivaux
Selon l’Artificial Analysis Coding Agent Index, Composer 2.5 obtient 62 points, derrière les versions maximales de Claude Opus 4.7 (66) et de GPT-5.5 (65). Le progrès est net : la version précédente était à 48 points. Sur l’épreuve multilingue SWE-Bench Multilingual, il affiche 79,8 % de résolution, presque au niveau de Claude Opus 4.7 (80,5 %) et devant GPT-5.5 (77,8 %).

Des tarifs 10 à 60 fois inférieurs
L’écart devient encore plus net sur les prix. Un agent Claude Opus 4.7 max facture 3,49 € par tâche, GPT-5.5 xhigh 4,10 €, quand Composer 2.5 reste à 0,06 € en mode standard et 0,37 € en mode rapide. Sur des sessions agentiques de centaines de milliers de jetons, la différence pèse lourd. Une promotion temporaire double les quotas des abonnés Pro et Business jusqu’au 25 mai.
| Modèle | Coût par tâche (€) |
|---|---|
| Cursor Composer 2.5 Standard | 0,06 |
| Cursor Composer 2.5 Fast | 0,37 |
| Claude Opus 4.7 max | 3,49 |
| GPT-5.5 xhigh | 4,10 |
La recette technique de Composer 2.5
Post‑entraînement ciblé et Targeted RL
Le modèle s’appuie sur la base open‑source Kimi K2.5 et a consacré 85 % de son budget de calcul au post‑entraînement et à l’apprentissage par renforcement. La pièce maîtresse, Targeted RL with Textual Feedback, ajoute des indices textuels quand l’agent se trompe, sans casser l’apprentissage global. Résultat : moins d’hallucinations de commandes et moins de boucles répétitives.

Données synthétiques et calibration d’effort
Le volume de tâches synthétiques a été multiplié par 25 par rapport à la version 2, avec des scénarios de « feature deletion » où l’agent doit nettoyer du code tout en gardant les tests unitaires intacts. L’architecture Mixture-of-Experts, avec environ 32 milliards de paramètres actifs sur un total d’un billion, réduit le coût de chaque inférence. Une calibration d’effort ajuste aussi les ressources selon la difficulté réelle de la tâche.
Malgré ces atouts, Composer 2.5 accuse encore 13 points de retard sur GPT-5.5 dans l’épreuve Terminal-Bench 2.0, un indicateur clé pour les flux DevOps. Anysphere veut combler cette lacune avec son prochain modèle, entraîné « from scratch ».
Pour cela, l’entreprise a noué un partenariat avec SpaceX et xAI. Le successeur de Composer 2.5 mobilisera le cluster Colossus 2 et ses 1 million d’équivalents GPU H100, soit une puissance de calcul décuplée. Cursor ne suit plus la limite technologique. Il veut la repousser.
















Laisser un commentaire
Vous devez vous connecter pour publier un commentaire.