Como Construímos um Sistema RAG Enterprise que Gerencia 1.400+ Documentos com Zero Custo em Nuvem

O Problema: o Conhecimento Disperso Custa Mais do que Você Imagina

Toda empresa com mais de 5 pessoas enfrenta o mesmo problema invisível: o conhecimento crítico está fragmentado entre e-mails, documentos, chats, CRM, bancos de dados e a cabeça das pessoas.

A McKinsey estima que os trabalhadores do conhecimento gastam 19,8% do seu tempo buscando informações internas. Para uma empresa com 20 funcionários com salário médio de €40K, isso representa €160.000/ano desperdiçados em buscas infrutíferas, perguntas repetidas e decisões tomadas sem contexto completo.

Os sistemas tradicionais (wikis corporativos, SharePoint, Confluence) não resolvem o problema: exigem que alguém mantenha ativamente a documentação atualizada. Ninguém faz isso.

A Solução: RAG Híbrido com Knowledge Graph

Construímos um sistema de Retrieval-Augmented Generation que indexa automaticamente todo o conhecimento corporativo e o torna consultável em linguagem natural. Não é um chatbot genérico — é um sistema que conhece a sua empresa.

Arquitetura em Alto Nível

O sistema é composto por três camadas:

1. Camada de Ingestão — Processa automaticamente documentos empresariais (estratégia, marketing, prospects, infraestrutura, integrações, pricing, análises de concorrentes) e os segmenta em chunks semanticamente coerentes. O sistema não apenas corta o texto: reconhece a estrutura dos documentos (títulos, seções, blocos de código) e preserva o contexto.

2. Camada de Busca Híbrida — Combina busca semântica (entende o significado da pergunta) com busca por palavras-chave (encontra correspondências exatas). O equilíbrio 60/40 entre as duas abordagens elimina tanto os falsos positivos da busca puramente semântica quanto a rigidez da busca por palavras-chave.

3. Camada de Knowledge Graph — Um grafo de entidades e relações que mapeia pessoas, tecnologias, projetos, competências e verticais. Quando você busca "quem gerencia o projeto X?", o sistema não procura apenas documentos similares — navega pelo grafo de relações.

Números Reais

Métrica	Valor
Documentos indexados	1.400+ chunks de 59 arquivos fonte
Tipos de documento	Estratégia, marketing, prospects, infraestrutura, segurança, concorrentes
Entidades no knowledge graph	71 (pessoas, tecnologias, projetos, competências, empresas)
Relações mapeadas	45+ conexões tipificadas
Latência média de busca	50-150ms
Custo adicional em nuvem	€0/mês
Atualização	Contínua, automática
Idiomas suportados	5 (IT, EN, ES, PT, DE, FR)

Como Funciona a Busca: o Vetor Sozinho não Basta

A maioria dos sistemas RAG no mercado usa apenas a busca vetorial (embedding). Funciona bem para perguntas vagas ("me fale sobre a estratégia de marketing") mas falha redondamente para queries precisas ("qual é o preço do tier enterprise para gestão de instalações?").

Nossa abordagem híbrida resolve os dois casos:

Busca semântica (60%) — Converte a pergunta em um vetor de alta dimensionalidade e encontra os documentos com significado mais próximo. Usa embeddings assimétricos: a forma de codificar uma pergunta é diferente da forma de codificar um documento, pois uma pergunta curta e um parágrafo longo têm estruturas linguísticas distintas.

Busca BM25 (40%) — Algoritmo probabilístico que pondera a frequência dos termos. Se você busca "Vacchelli €797", o sistema encontra exatamente esse preço nesses documentos, mesmo que a query não seja semanticamente "próxima" de nada.

Filtro de qualidade — Apenas resultados acima de um limiar mínimo são retornados. É melhor zero resultado do que resultados errados: em um contexto enterprise, uma informação incorreta é pior do que nenhuma informação.

O Knowledge Graph: Relações, não Apenas Documentos

Documentos contêm fatos. Mas as empresas funcionam a partir de relações.

"Alessandro gerencia o SCALA" não é um fato que se encontra em um documento — é uma relação entre uma entidade pessoa e uma entidade projeto. O knowledge graph captura essas relações e permite queries estruturais:

"Quais tecnologias o projeto X utiliza?" → navegação pelo grafo
"Quem tem competências em AI Strategy?" → busca de entidades por tipo
"Quais projetos atendem a vertical hospitality?" → traversal multi-hop

O grafo suporta 8 tipos de relação (uses, builds, serves, requires, competes_with, part_of, manages, has_skill) e 8 tipos de entidades. Cada entidade tem seu próprio embedding vetorial, portanto pode ser encontrada tanto por significado quanto por estrutura.

Deduplicação Inteligente: Nunca Reprocessar o Mesmo Documento

Um problema subestimado nos sistemas RAG é a re-indexação. Se um documento muda uma linha em 200, um sistema ingênuo o reprocessa completamente: novo chunking, novos embeddings, novos custos de API.

Nosso sistema calcula um hash criptográfico de cada chunk. Se o conteúdo não mudou, pula completamente — zero chamadas de API, zero escritas no banco. Se o arquivo tem menos chunks do que a versão anterior (porque foi reduzido), os chunks órfãos são removidos automaticamente.

Resultado: uma re-indexação completa de 1.400+ chunks leva menos de 30 segundos se nada mudou.

Integração Nativa com o Assistente de IA

O sistema não é uma aplicação independente com uma interface a ser mantida. Está integrado diretamente no assistente de IA via protocolo MCP (Model Context Protocol), expondo 8 operações:

Busca — Consulta em linguagem natural com filtros opcionais
Recuperação — Todos os chunks de um documento específico
Catálogo — Lista completa das fontes indexadas
Ingestão — Adição de novos documentos sob demanda
Navegação no grafo — Busca de entidades, relações, vizinhança N-hop
Estatísticas — Estado do sistema em tempo real

Quando o assistente de IA recebe uma pergunta, consulta automaticamente o RAG antes de responder. Ele não "inventa" — recupera fatos verificados da base de conhecimento corporativa.

Por que não um SaaS?

Os sistemas RAG-as-a-Service (Pinecone, Weaviate Cloud, Zilliz) custam €200-2.000/mês para volumes enterprise. Fazem sentido para quem não tem competências de infraestrutura.

Para quem já tem um banco PostgreSQL em produção, adicionar o pgvector é uma extensão — não um novo serviço. O custo marginal é literalmente zero: mesmos servidores, mesmo banco de dados, mesmo backup.

A verdadeira vantagem não é a economia: é o controle. Os dados corporativos nunca saem da infraestrutura. Sem vendor lock-in, sem risco de surpresas no pricing, sem dependência de APIs que podem mudar os termos de serviço.

Lições Aprendidas

1. O híbrido supera o vetorial puro. A busca apenas semântica produz falsos positivos demais em contextos enterprise onde a precisão importa mais do que o recall. O BM25 a 40% adiciona o "grounding" necessário.

2. O knowledge graph não é um luxo. Para empresas com estruturas organizacionais complexas, o grafo de relações responde perguntas que nenhum sistema vetorial consegue resolver. "Quem é responsável pelo quê?" é uma pergunta de grafo, não de similaridade.

3. A dedup poupa mais do que você imagina. Em um sistema que re-indexa periodicamente, a deduplicação baseada em hash reduz o consumo de API em mais de 90% nas execuções posteriores à primeira.

4. O chunking inteligente representa 50% do resultado. Chunks muito pequenos perdem contexto. Muito grandes, diluem a relevância. A segmentação pela estrutura do documento (cabeçalhos, funções, seções) com sobreposição preserva tanto o contexto quanto a precisão.

5. Custo zero não significa esforço zero. São necessárias competências em data engineering, NLP e infraestrutura. Mas uma vez construído, o custo operacional do sistema é essencialmente zero.

Para Quem Faz Sentido

Esta abordagem é ideal para:

Empresas com 10+ funcionários que acumulam conhecimento em documentos dispersos
Equipes técnicas que já têm PostgreSQL em produção
Organizações multi-verticais com bases de conhecimento heterogêneas
Quem gasta >€200/mês em ferramentas de gestão do conhecimento

Não faz sentido para:

Startups com 2-3 pessoas (o conhecimento cabe na cabeça de todos)
Empresas sem competências técnicas internas (um SaaS é mais adequado)
Casos de uso com menos de 100 documentos (superdimensionado)

Este sistema faz parte do SCALA AI OS, o sistema operacional de IA para empresas multi-verticais. Saiba mais ou solicite uma demo.