Le nouveau benchmark MoNaCo a révélé les limites majeures des modèles de langage les plus avancés. Les chercheurs ont testé 15 LLM, dont GPT‑5 et Claude Opus 4, et le meilleur score F1 n’a dépassé que 61 %. Ce constat pousse la communauté IA à repenser la factualité, le raisonnement multi‑documents et la génération augmentée par récupération.
À retenir
- MoNaCo propose 1 315 questions réalistes, 90 000 questions intermédiaires et plus de 43 pages Wikipédia par question.
- Le meilleur LLM testé, OpenAI o3, atteint un score F1 de 61,18 % et 38,7 % de réponses parfaites.
- La récupération naïve (BM25) diminue la précision ; seule la récupération « oracle » améliore les scores.
- Le benchmark est libre, disponible sur HuggingFace, sous licence ODC‑BY, et publié dans TACL en 2025.
MoNaCo benchmark : une nouvelle référence pour la question‑réponse complexe
MoNaCo a été conçu pour pousser les LLM au-delà des évaluations superficielles.
Qu’est‑ce que MoNaCo et pourquoi il a été créé
MoNaCo signifie « More Natural and Complex Questions ». Il vise à mesurer les capacités de raisonnement réel des IA. Les créateurs ont constaté que les benchmarks existants étaient trop simples ou artificiels. Ils ont voulu reproduire les requêtes que posent les chercheurs, les professeurs ou les amateurs curieux. Le but est d’identifier les lacunes factuelles et méthodologiques des modèles.
Caractéristiques du dataset et volume de données
Le jeu contient 1 315 questions rédigées par des humains. Chaque question compte en moyenne 14,5 mots. Elle requiert plus de cinq étapes de raisonnement. Les preuves proviennent de 43 pages Wikipédia différentes en moyenne. MoNaCo inclut 90 000 questions intermédiaires, 8 549 questions de type liste (16,2 réponses par liste) et plus de 40 000 questions booléennes. Les preuves sont multimodales : 67,8 % de tableaux, 29,5 % de texte et 2,7 % de listes.
Chaînes de raisonnement annotées
Chaque question possède une « gold reasoning chain ». Cette chaîne décrit chaque sous‑étape logique. Les annotateurs humains l’ont vérifiée. Elle permet d’inspecter, de vérifier et de reproduire la logique du modèle. Ainsi, le benchmark ne se contente pas de mesurer la réponse finale, il analyse le processus de décision.

Conception et innovation du pipeline d’annotation
Le pipeline de MoNaCo combine crowdsourcing et expertise pointue.
Processus décomposé et rôle des crowd workers
Des crowd workers ont d’abord créé des questions selon des personas variés. Ils ont ainsi garanti un langage naturel. Ensuite, des annotateurs experts ont découpé chaque question en sous‑questions à l’aide du formalisme QDMR (Question Decomposition Meaning Representation). Un moteur automatisé a généré les réponses d’étape et les agrégations. Ce flux a produit plus de 90 000 questions intermédiaires et leurs preuves associées.
Comparaison avec les benchmarks antérieurs
Contrairement à HotpotQA, Musique ou QAMPARI, MoNaCo exige des dizaines, voire des centaines, de documents sources. Il introduit des agrégations et des calculs arithmétiques avancés. Les questions sont plus naturelles et plus complexes que les scénarios générés par machine. La plupart des benchmarks précédents ne proposaient que deux ou trois documents de support.
Qualité et contrôle multi‑couche
Le contrôle qualité comporte plusieurs étapes. D’abord, les crowd workers relisent les questions. Ensuite, des experts valident les chaînes de raisonnement. Enfin, des LLM vérifient la cohérence des réponses. Cette triangulation réduit les erreurs d’annotation. Elle assure une fiabilité comparable à des évaluations humaines.
Performance des LLM de pointe sur MoNaCo
Les tests ont mis en évidence des faiblesses généralisées.
Scores F1 et limites observées
Quinze modèles ont été évalués, dont GPT‑5, Claude Opus 4, Google Gemini 2.5 Pro, Deepseek‑R1 et le modèle o3 d’OpenAI. Le meilleur score F1, 61,18 % pour o3, reste bien en dessous de la perfection. Ce modèle n’a répondu parfaitement qu’à 38,7 % des questions. GPT‑5 a atteint 60,11 % de F1, tandis que Claude Opus 4 s’est arrêté à 55,03 %. Les modèles orientés raisonnement ont légèrement surpassé les versions « vanilla », mais les écarts restent modestes.
Défis de la récupération d’information et du RAG
MoNaCo a testé la génération augmentée par récupération (RAG). La récupération naïve, basée sur BM25, a souvent réduit la précision. Les modèles ont perdu du temps à filtrer le bruit des documents. En revanche, la récupération « oracle », qui fournit les preuves gold, a boosté les scores de GPT‑4o et Llama 3.1‑405B. Ce contraste montre que les LLM peinent à identifier les sources pertinentes parmi un grand volume d’informations.
Analyse des types de questions difficiles
Les questions à plusieurs étapes de raisonnement ont entraîné une chute nette de performance. Plus le nombre d’étapes augmente, plus le score chute. Les questions de type liste, qui demandent 16,2 réponses en moyenne, sont les plus pénalisantes. La précision chute fortement dès que la liste dépasse cinq éléments. Les questions booléennes restent légèrement plus faciles, mais le taux d’erreur reste élevé.

Impact, disponibilité et perspectives de recherche
MoNaCo se positionne comme un cadre d’évaluation complet et ouvert.
Cadre d’évaluation polyvalent et usage pour le Deep Research
Le benchmark couvre quatre axes : factualité paramétrique, raisonnement sur contextes longs, récupération multi‑documents et génération RAG bout‑en‑bout. Les chaînes de raisonnement permettent d’entraîner des systèmes de « Deep Research ». Ces systèmes visent à reproduire la capacité humaine à synthétiser de nombreux documents. MoNaCo devient ainsi un terrain d’essai pour la prochaine génération d’IA factuelle.
Accès public, licences et diffusion
Le dataset, le code et les sorties des modèles sont hébergés sur HuggingFace. Ils sont publiés sous licence ODC‑BY, autorisant la réutilisation commerciale et académique. La publication officielle est apparue dans les Transactions of the Association for Computational Linguistics (TACL) en 2025. Le projet est soutenu par l’Allen Institute for AI (Ai2), un institut à but non lucratif.
Enjeux pour l’avenir du raisonnement IA
Les premiers résultats montrent que les LLM ne maîtrisent pas encore le raisonnement multi‑documents humain. Les défis incluent une meilleure intégration de la récupération d’informations et une gestion efficace des contextes longs. Il faut également renforcer la génération de listes fiables. MoNaCo offre une feuille de route claire : améliorer la factualité, la transparence et la robustesse des systèmes IA. Les chercheurs sont invités à exploiter le benchmark pour pousser les limites actuelles.
















