Comment Nous Avons Construit un Système RAG Entreprise qui Gère 1 400+ Documents avec Zéro Coût Cloud
Étude de cas technique : système RAG hybride avec knowledge graph pour la gestion des connaissances d'entreprise. Recherche sémantique + par mots-clés en <150ms, 1 400+ documents indexés, coût opérationnel zéro.
Le Problème : la Connaissance Dispersée Coûte Plus Cher que Vous ne le Pensez
Toute entreprise de plus de 5 personnes partage le même problème invisible : la connaissance critique est éparpillée entre e-mails, documents, chats, CRM, bases de données et les esprits des collaborateurs.
McKinsey estime que les travailleurs du savoir consacrent 19,8 % de leur temps à chercher des informations en interne. Pour une entreprise de 20 employés avec un salaire moyen de 40 000 €, cela représente 160 000 €/an brûlés en recherches infructueuses, questions répétées et décisions prises sans contexte complet.
Les systèmes traditionnels (wikis d'entreprise, SharePoint, Confluence) ne résolvent pas le problème : ils exigent qu'une personne maintienne activement la documentation à jour. Personne ne le fait.
La Solution : RAG Hybride avec Knowledge Graph
Nous avons construit un système de Retrieval-Augmented Generation qui indexe automatiquement toute la connaissance d'entreprise et la rend interrogeable en langage naturel. Pas un chatbot générique — un système qui connaît votre entreprise.
Architecture de Haut Niveau
Le système est composé de trois couches :
1. Couche d'Ingestion — Traite automatiquement les documents d'entreprise (stratégie, marketing, prospects, infrastructure, intégrations, pricing, analyses concurrentielles) et les découpe en segments sémantiquement cohérents. Le système ne se contente pas de couper le texte : il reconnaît la structure des documents (titres, sections, blocs de code) et préserve le contexte.
2. Couche de Recherche Hybride — Combine la recherche sémantique (comprend le sens de la question) avec la recherche par mots-clés (trouve des correspondances exactes). L'équilibre 60/40 entre les deux approches élimine aussi bien les faux positifs de la recherche purement sémantique que la rigidité de la recherche par mots-clés.
3. Couche Knowledge Graph — Un graphe d'entités et de relations qui cartographie les personnes, technologies, projets, compétences et verticales. Lorsque vous cherchez « qui gère le projet X ? », le système ne cherche pas seulement des documents similaires — il navigue dans le graphe des relations.
Chiffres Réels
| Métrique | Valeur |
|---|---|
| Documents indexés | 1 400+ chunks issus de 59 fichiers sources |
| Types de documents | Stratégie, marketing, prospects, infrastructure, sécurité, concurrents |
| Entités dans le knowledge graph | 71 (personnes, technologies, projets, compétences, entreprises) |
| Relations cartographiées | 45+ connexions typées |
| Latence moyenne de recherche | 50-150ms |
| Coût cloud additionnel | €0/mois |
| Mise à jour | Continue, automatique |
| Langues supportées | 5 (IT, EN, ES, PT, DE, FR) |
Comment Fonctionne la Recherche : le Vecteur Seul ne Suffit Pas
La plupart des systèmes RAG sur le marché utilisent uniquement la recherche vectorielle (embedding). Cela fonctionne bien pour des questions vagues (« dis-moi quelque chose sur la stratégie marketing ») mais échoue lamentablement pour des requêtes précises (« quel est le prix du tier enterprise pour la gestion des installations ? »).
Notre approche hybride résout les deux cas :
Recherche sémantique (60 %) — Convertit la question en un vecteur haute dimensionnalité et trouve les documents dont le sens est le plus proche. Elle utilise des embeddings asymétriques : la façon d'encoder une question diffère de celle d'encoder un document, car une courte question et un long paragraphe ont des structures linguistiques différentes.
Recherche BM25 (40 %) — Algorithme probabiliste qui pondère la fréquence des termes. Si vous cherchez « Vacchelli €797 », le système retrouve exactement ce prix dans ces documents, même si la requête n'est sémantiquement « proche » de rien.
Filtre de qualité — Seuls les résultats dépassant un seuil minimal sont retournés. Mieux vaut zéro résultat que des résultats erronés : dans un contexte entreprise, une information incorrecte est pire qu'aucune information.
Le Knowledge Graph : des Relations, pas Seulement des Documents
Les documents contiennent des faits. Mais les entreprises fonctionnent grâce à des relations.
« Alessandro gère SCALA » n'est pas un fait que l'on trouve dans un document — c'est une relation entre une entité personne et une entité projet. Le knowledge graph capture ces relations et permet des requêtes structurelles :
- « Quelles technologies utilise le projet X ? » → navigation dans le graphe
- « Qui a des compétences en AI Strategy ? » → recherche d'entités par type
- « Quels projets servent la verticale hospitality ? » → traversée multi-hop
Le graphe supporte 8 types de relations (uses, builds, serves, requires, competes_with, part_of, manages, has_skill) et 8 types d'entités. Chaque entité dispose de son propre embedding vectoriel, de sorte qu'elle peut être trouvée aussi bien par sens que par structure.
Déduplication Intelligente : Ne Jamais Retraiter le Même Document
Un problème sous-estimé dans les systèmes RAG est la ré-indexation. Si un document change d'une ligne sur 200, un système naïf le retraite entièrement : nouveau découpage, nouveaux embeddings, nouveaux coûts API.
Notre système calcule un hash cryptographique pour chaque chunk. Si le contenu n'a pas changé, on passe complètement — zéro appel API, zéro écriture en base. Si le fichier comporte moins de chunks que la version précédente (parce qu'il a été raccourci), les chunks orphelins sont automatiquement supprimés.
Résultat : une ré-indexation complète de 1 400+ chunks prend moins de 30 secondes si rien n'a changé.
Intégration Native avec l'Assistant AI
Le système n'est pas une application autonome avec une interface à maintenir. Il est intégré directement dans l'assistant AI via le protocole MCP (Model Context Protocol), exposant 8 opérations :
- Recherche — Interrogation en langage naturel avec filtres optionnels
- Récupération — Tous les chunks d'un document spécifique
- Catalogue — Liste complète des sources indexées
- Ingestion — Ajout de nouveaux documents à la demande
- Navigation graphe — Recherche d'entités, relations, voisinage N-hop
- Statistiques — État du système en temps réel
Lorsque l'assistant AI reçoit une question, il consulte automatiquement le RAG avant de répondre. Il n'« invente » pas — il récupère des faits vérifiés depuis la base de connaissance de l'entreprise.
Pourquoi Pas un SaaS ?
Les systèmes RAG-as-a-Service (Pinecone, Weaviate Cloud, Zilliz) coûtent 200 à 2 000 €/mois pour des volumes entreprise. Ils sont pertinents pour ceux qui n'ont pas de compétences infrastructurelles.
Pour ceux qui disposent déjà d'une base PostgreSQL en production, ajouter pgvector est une extension — pas un nouveau service. Le coût marginal est littéralement zéro : mêmes serveurs, même base de données, même sauvegarde.
Le vrai avantage n'est pas l'économie : c'est le contrôle. Les données d'entreprise ne quittent jamais l'infrastructure. Aucun vendor lock-in, aucun risque de surprise tarifaire, aucune dépendance à des API susceptibles de changer leurs conditions de service.
Enseignements
1. L'hybride bat le pur vectoriel. La recherche purement sémantique produit trop de faux positifs dans les contextes enterprise où la précision prime sur le rappel. Le BM25 à 40 % apporte le « grounding » nécessaire.
2. Le knowledge graph n'est pas un luxe. Pour les entreprises avec des structures organisationnelles complexes, le graphe de relations répond à des questions qu'aucun système vectoriel ne peut résoudre. « Qui est responsable de quoi ? » est une question de graphe, pas de similarité.
3. La dédup économise plus que prévu. Dans un système qui ré-indexe périodiquement, la déduplication basée sur hash réduit la consommation API de 90 %+ lors des exécutions suivant la première.
4. Le chunking intelligent représente 50 % du résultat. Des chunks trop petits perdent le contexte. Trop grands, ils diluent la pertinence. La segmentation par structure du document (en-têtes, fonctions, sections) avec chevauchement préserve à la fois le contexte et la précision.
5. Zéro coût ne veut pas dire zéro effort. Des compétences en data engineering, NLP et infrastructure sont nécessaires. Mais une fois le système construit, le coût opérationnel est essentiellement nul.
Pour Qui Cela a du Sens
Cette approche est idéale pour :
- Les entreprises de 10+ employés qui accumulent de la connaissance dans des documents dispersés
- Les équipes techniques qui ont déjà PostgreSQL en production
- Les organisations multi-verticales avec des bases de connaissance hétérogènes
- Quiconque dépense >200 €/mois en outils de gestion des connaissances
Cela n'a pas de sens pour :
- Les startups de 2-3 personnes (toute la connaissance tient dans les têtes)
- Les entreprises sans compétences techniques internes (un SaaS est préférable)
- Les cas d'usage avec moins de 100 documents (surdimensionné)
Ce système fait partie de SCALA AI OS, le système d'exploitation AI pour les entreprises multi-verticales. En savoir plus ou demander une démo.
Recevez des insights IA et automatisation
Rejoignez 1 800+ professionnels. Outils gratuits, stratégies et études de cas — chaque semaine.