A flexibilidade do Google Cloud permite que empresas construam arquiteturas seguras e confiáveis para seus workloads de inteligência artificial. Neste artigo, analisamos uma arquitetura de referência para conectividade privada em aplicações de IA generativa que utilizam Retrieval-Augmented Generation (RAG).
Este design é crítico para cenários onde a comunicação de todo o ecossistema deve utilizar obrigatoriamente endereços IP privados, evitando qualquer exposição à internet pública — um requisito comum para empresas brasileiras dos setores financeiro, de saúde e varejo que lidam com dados sensíveis.
O Poder do RAG no Contexto Corporativo
O RAG é uma técnica essencial para otimizar o output de LLMs (Large Language Models), ancorando-os em bases de conhecimento específicas e autoritativas fora de seus dados de treinamento originais. Na prática, o RAG permite que uma aplicação recupere informações relevantes de seus documentos, datasources ou bancos de dados em tempo real.
Esse contexto recuperado é fornecido ao modelo junto com a query do usuário, garantindo que as respostas da IA sejam precisas, verificáveis e altamente relevantes para o negócio. Para o gestor de TI, isso significa mitigar significativamente o risco de "alucinações" e garantir que a IA utilize uma "fonte da verdade" designada, sem a necessidade de processos caros de fine-tuning ou retreinamento de modelos.
Exemplo de Padrão de Design
Para implementar uma conectividade privada regional em uma aplicação RAG, precisamos olhar para o padrão de design que separa responsabilidades e camadas de segurança.
A configuração compreende uma rede externa (on-premises ou outras nuvens) e ambientes Google Cloud consistindo em um projeto de roteamento, um projeto host de Shared VPC para RAG e três projetos de serviço especializados: data ingestion, serving e frontend.
A solução utiliza os seguintes serviços para garantir a fluidez e segurança end-to-end:
- Cloud Interconnect ou Cloud VPN: Para conexão segura entre o ambiente local (ou outras clouds) e a VPC de roteamento.
- Network Connectivity Center: Atua como o framework de orquestração para gerenciar a conectividade entre a VPC de roteamento e a VPC do RAG via VPC spokes e hybrid spokes.
- Cloud Router: No projeto de roteamento, facilita a troca dinâmica de rotas BGP entre a rede externa e o Google Cloud.
- Private Service Connect: Fornece um endpoint privado na rede de roteamento para acessar o bucket do Cloud Storage sem trafegar pela internet.
- Shared VPC: Arquitetura centralizada que permite que múltiplos projetos de serviço utilizem uma rede VPC comum.
- Google Cloud Armor e Application Load Balancer: Posicionados no projeto de frontend para fornecer segurança (proteção contra DDoS e WAF) e gerenciamento de tráfego.
- VPC Service Controls: Cria um perímetro de segurança gerenciado em torno de todos os recursos para mitigar riscos de exfiltração de dados.

O Fluxo de Tráfego
1. Fluxo de População do RAG (Ingestão)
No diagrama, a linha tracejada verde ilustra o fluxo de população, onde os dados viajam dos engenheiros de dados até o armazenamento vetorial:
- Os dados saem da rede externa via Cloud Interconnect ou Cloud VPN.
- No projeto de roteamento, utilizam o endpoint do Private Service Connect para alcançar o Cloud Storage.
- O subsistema de data ingestion processa os dados brutos a partir do bucket.
- O modelo de IA cria os vetores (embeddings), que são gravados no RAG datastore (banco vetorial) no projeto de serving.
2. Fluxo de Inferência (Requisição do Usuário)
A linha tracejada laranja descreve o caminho percorrido pelas solicitações dos usuários:
- A requisição viaja via Interconnect/VPN até a VPC de roteamento e, através do VPC spoke, chega à VPC do RAG.
- O tráfego atinge o Application Load Balancer protegido pelo Cloud Armor. Uma vez autorizado, é passado para o subsistema de frontend.
- O frontend encaminha a demanda para o subsistema de serving, que enriquece o prompt com dados recuperados do RAG datastore.
- O modelo gera a resposta baseada (grounded) nos dados reais, que retorna ao usuário pelo mesmo caminho privado.
3. Gerenciamento e Roteamento
As linhas pontilhadas azuis representam os spokes do Network Connectivity Center, que gerenciam o control plane e a orquestração de rotas. Isso garante que as rotas aprendidas da rede local sejam propagadas corretamente por todo o ambiente de nuvem, mantendo a estabilidade operacional.
Considerações Estratégicas para Empresas Brasileiras
Ao adotar este modelo, times de engenharia no Brasil devem dar atenção especial aos limites do VPC Service Controls e às permissões de IAM. O isolamento proposto não apenas atende a requisitos de conformidade (como a LGPD), mas também reduz a latência ao manter o processamento dentro do backbone privado do Google.
Para uma implementação bem-sucedida, recomendamos a leitura detalhada da documentação de arquitetura sobre conectividade privada para RAG, focando em governança e controle de custos (FinOps), dado que o tráfego via Interconnect e o uso de bancos vetoriais gerenciados possuem estruturas de custo específicas.
Artigo originalmente publicado por Ammett Williams (Developer Relations Engineer) em Cloud Blog.