Développer un RAG (Retrieval Augmented Generation) sans évaluation, c’est comme jouer au loto, parfois (rarement) ça fonctionne.. Je présente un retour d’expérience sur un chatbot RAG open source pour interroger les recommandations de l’ANSSI à partir de 130+ guides PDF, avec citations (PDF + page).
J’applique une démarche RAG Score-Driven : je crée d’abord un dataset de référence avec vérité terrain, puis un pipeline d’évaluation reproductible (retrieval et génération), automatique en CI et avec suivi dans des dashboards. Ensuite, j’introduis les fonctionnalités une par une en les évaluant systématiquement et en ne conservant que les combinaisons gagnantes.
Au final : une méthode outillée pour éviter “l’over-engineering”, détecter les régressions, et maîtriser qualité, latence et coûts.
Commentaires