Le benchmark « Vibe Code Bench » consacre GPT‑5.1

·

·

Vals AI secoue le codage IA avec son benchmark Vibe Code Bench
Résumer cet article avec :

Vals AI a dévoilé hier le Vibe Code Bench, un benchmark inédit évaluant la capacité des grands modèles de langage à construire des applications web complètes à partir de simples descriptions en langage naturel. OpenAI GPT-5.1 domine avec 24,6 % de précision, devant Claude Sonnet 4.5, tandis que Google Gemini 3 Pro déçoit malgré ses succès ailleurs. Ces résultats soulignent les limites actuelles des agents de codage, même chez les leaders.


À retenir

  • Vals AI publie le Vibe Code Bench le 21 novembre 2025 pour tester le vibe coding.
  • 100 spécifications uniques pour apps MVP comme une plateforme sociale ou un traqueur d’habitudes.
  • GPT-5.1 leader à 24,6 % précision, 2,57 $ par test, environ 30 minutes de latence.
  • Gemini 3 Pro à 14,3 % et 173 minutes par tâche, malgré ses performances sur SWE-Bench.
  • Évaluation automatisée via tests UI point-and-click dans un sandbox isolé.
  • Aucun modèle ne dépasse 25 % de réussite systématique sur apps end-to-end.

Ce benchmark arrive à un moment clé où le codage représente le principal usage des modèles d’IA générative, avec des dépenses massives en tokens. Il cible le cas d’usage zero-to-one – créer des applications de A à Z sans coder manuellement – essentiel pour accélérer le prototypage chez les non-techniciens et les entreprises. Pour les développeurs et startups, ces évaluations coût-efficacité orientent les choix de modèles et exposent les faiblesses réelles en développement logiciel piloté par IA.

Vibe Code Bench, un test pionnier pour le développement par prompts

Ce nouvel outil d’évaluation dépasse les benchmarks traditionnels en simulant un flux de travail complet.

Du vibe coding aux enjeux zero-to-one

Le vibe coding définit un paradigme où les agents de codage réagissent à des invites naturelles de haut niveau. L’IA doit produire du code lisible, cohérent stylistiquement et fidèle aux instructions non fonctionnelles, un vibe check passé avec succès. Contrairement à SWE-Bench, focalisé sur des bugs isolés ou algorithmes, Vibe Code Bench mesure la frontier capability : bâtir des applications web end-to-end.

Rayan Krishnan, fondateur de Vals AI, cible le prototypage rapide pour non-développeurs. Les specs, limitées à une page, décrivent des MVP comme Zeeter, clone de plateforme sociale avec authentification, posts, likes et commentaires. Ou encore une app d’exercices de respiration, un traqueur d’habitudes ou un portail de classe.

Un sandbox réaliste et agnostique

Les modèles opèrent dans un environnement Docker-in-Docker, adapté d’OpenHands, avec terminal bash illimité, édition de fichiers et navigation web pour docs. Des services self-hosted facilitent les tests : Supabase pour base de données et auth, Stripe en mode test pour paiements, MailHog pour emails. Limite fixée à 5 heures ou 1000 tours par tâche.

L’évaluation repose sur Browser Use, agent autonome effectuant des tests UI par interactions point-and-click. Un test réussit si 90 % des sous-étapes passent ; le score global est le pourcentage de tests validés. Cette automatisation holistique capture la fiabilité réelle en production.

Résultats : leaders coût-efficaces et surprises cuisantes

Sur 12 modèles testés, les écarts de performance révèlent des priorités mal alignées chez certains géants.

Le podium dominé par OpenAI et Anthropic

OpenAI GPT-5.1 arrive premier avec 24,6 % de précision, à 2,57 $ par test et 1836 secondes de latence moyenne – environ 30 minutes. Anthropic Claude Sonnet 4.5 (mode Thinking) suit à 22,6 %, pour 6,66 $ et près d’une heure. GPT-5 complète le top 3 à 20,1 % et 1,53 $, soulignant l’excellence coût-efficacité d’OpenAI.

Ces leaders déboguent vite configs et code, progressant loin dans les tâches malgré complexité.

Gemini 3 Pro, contre-performance latente

Google Gemini 3 Pro, star de SWE-Bench, chute à la 11e place avec 14,3 %. Sa latence explose : 10 398 secondes par tâche, soit 173 minutes et 5,6 fois plus que GPT-5.1. Erreurs récurrentes incluent installations ratées – malgré Node et Docker préinstallés –, configs réseau Supabase défaillantes, timeouts ignorés ou abandons précoces via outil ‘finish’.

La lenteur de Gemini 3 Pro est « extrêmement lente ». Rayan Krishnan, PDG de Vals AI.

Vers un fossé persistant en codage IA fiable

Même le meilleur score masque un défi majeur pour l’industrie.

Performances globales décevantes

Aucun modèle ne livre d’apps passant tous les tests du premier coup ; 24,6 % maximum confirme le développement end-to-end comme frontière ouverte. Le fossé sépare leaders – efficaces en débogage – du peloton : Gemini 2.5 Pro à 0,4 %, Qwen 3 Max à 3,5 %, GPT-5 Mini à 4,9 %. Comparé à FeatBench (max 29,94 %), le vibe check force une évaluation qualitative.

Erreurs récurrentes analysées

Les bas scores découlent de non-respect d’instructions, configs réseau bloquantes et itérations inefficaces jusqu’au timeout. Les tops gèrent mieux ces pièges infrastructurels.

Besoins d’évaluation holistique

Au-delà de pass@k sur fonctions isolées, il faut tester conformité multi-instructions et qualité code. Vibe Code Bench guide l’entraînement futur vers ce que veulent les devs : apps prototypables rapidement. Pour la démocratisation du développement logiciel, ces benchmarks coût-efficaces deviennent indispensables.


Sur le même Thème :

Laisser un commentaire