Dans les documents complexes, le retrieval-augmented generation (RAG) montre encore ses limites. PageIndex, développé par VectifyAI, propose une alternative sans vecteurs, fondée sur le raisonnement. Lancé fin 2025, ce framework open source affiche 98,7 % de précision sur FinanceBench, loin devant les 30 % à 50 % des systèmes vectoriels classiques. Il vise les entreprises qui traitent des rapports financiers, des contrats ou des dossiers juridiques denses, avec une traçabilité précise.
À retenir
- PageIndex : framework RAG sans vecteurs, fondé sur le raisonnement, développé par VectifyAI fin 2025.
- 98,7 % de précision sur FinanceBench.
- Indexation en arbre hiérarchique JSON, qui remplace le chunking classique.
- Recherche agentique inspirée d’AlphaGo pour naviguer comme un expert humain.
- Traçabilité complète : chaque réponse cite la page et la section exactes.
- Extension Vision RAG pour analyser les graphiques sans OCR traditionnel.
- RAG hybride pour équilibrer rappel vectoriel et précision du raisonnement.
PageIndex dépasse les 98 % de précision avec une approche sans vecteurs
Les systèmes de retrieval traditionnels sont surtout jugés sur leur capacité à retrouver rapidement des passages proches. PageIndex change la logique : il privilégie la réponse pertinente, pas la proximité vectorielle. Les résultats ne reposent plus sur la seule qualité des embeddings.

La précision de PageIndex sur FinanceBench repose sur un raisonnement structuré plutôt que sur la simple similarité vectorielle.
FinanceBench montre un écart net
Sur FinanceBench, le benchmark de référence pour les questions financières complexes, PageIndex affiche 98,7 % de précision. Les approches vectorielles se situent entre 30 % et 50 %. Le système s’appuie sur la structure complète du document, pas sur des fragments isolés.
Fin du « vibe retrieval » et des réponses approximatives
Le « vibe retrieval » produit des réponses plausibles, mais sans source claire. Avec PageIndex, chaque sortie indique la page et la section exactes. Cette traçabilité répond aux exigences des rapports SEC et des dossiers juridiques.
Le suivi des références croisées
Quand un document renvoie à « voir Annexe G », PageIndex suit la référence sans perdre le fil. Le système comprend le lien logique et extrait l’information complémentaire en quelques étapes. Les bases vectorielles, elles, coupent souvent le contexte.
Une architecture inspirée d’AlphaGo pour naviguer dans les documents
À la place des vecteurs, PageIndex construit un arbre hiérarchique qui représente la structure logique du document. L’IA peut ainsi explorer le contenu comme le ferait un analyste expérimenté.

Les extensions multimodales et le PageIndex File System ouvrent la voie à un RAG hybride capable de traiter des corpus massifs à l’échelle de l’entreprise.
Un arbre d’indexation remplace le chunking
Chaque PDF est transformé en structure JSON arborescente. Chaque nœud contient un titre, un résumé et une plage de pages. L’IA consulte d’abord cette table des matières intelligente avant de descendre dans les détails, ce qui limite la perte de contexte liée au chunking.
Une recherche agentique raisonne pas à pas
Inspiré de l’algorithme de recherche d’AlphaGo, le processus raisonne par étapes. Le modèle évalue les branches les plus prometteuses, écarte les impasses et affine sa cible. Il consomme plus de tokens, mais gagne en précision par rapport à une recherche en une seule passe.
Indexation dans le contexte, plutôt que la similarité sémantique
Ici, la similarité sémantique n’est plus le critère principal. Le système lit le contexte réel et vérifie si le passage répond à la question posée. Cette distinction entre similarité et pertinence améliore la fiabilité des réponses.
Des extensions multimodales et des défis de passage à l’échelle
PageIndex ne se limite plus aux textes. Ses capacités multimodales et son approche hybride ouvrent des usages concrets pour les grandes organisations.
Vision RAG pour analyser graphiques et diagrammes
Le Vision RAG permet de traiter les pages comme des images via des modèles multimodaux comme Llava. Les graphiques, tableaux complexes et schémas techniques deviennent lisibles sans OCR fragile. Cette évolution simplifie l’analyse de rapports annuels chargés en visuels.
PageIndex File System pour les gros corpus
Pour les entreprises qui gèrent des millions de documents, le PageIndex File System ajoute une couche d’indexation au niveau du fichier. Le raisonnement s’étend alors à l’ensemble du corpus, tout en conservant la précision de l’approche par arbre.
Vers un RAG hybride pour maîtriser latence et coûts
Le raisonnement approfondi demande plus de tokens et ajoute plusieurs secondes de latence. En mai 2026, la tendance est donc à la combinaison des deux approches : un filtrage vectoriel rapide, puis PageIndex sur les documents les plus pertinents. Ce RAG hybride offre un compromis entre vitesse et précision.
















Laisser un commentaire
Vous devez vous connecter pour publier un commentaire.