Cargas de trabalho de Inteligência Artificial (AI) e Machine Learning (ML) não flutuam no vácuo; elas são fundamentadas em princípios estabelecidos de engenharia de software e infraestrutura. Embora o ciclo de vida de AI/ML introduza novas restrições operacionais, essas aplicações continuam sendo executadas em plataformas de compute, storage e networking, encaixando-se naturalmente nos modelos de entrega IaaS, PaaS e SaaS.
Para empresas brasileiras que estão escalando modelos próprios ou consumindo serviços gerenciados, o foco recai sobre a segurança operacional. Neste artigo, analisamos a proteção de aplicações de AI no Oracle Kubernetes Engine (OKE), uma escolha crescente no Brasil devido à eficiência de custos e conformidade de dados, especialmente para setores regulados.
O Diferencial da OCI para High-Performance Computing (HPC)
A Oracle Cloud Infrastructure (OCI) tem se destacado pelo fornecimento de redes com suporte a RDMA (High-Bandwidth, Ultra-Low Latency), essenciais para computação paralela exigente, como GenAI e BigData. Para o gestor de TI, isso significa que a infraestrutura não é apenas um repositório, mas um motor de performance que requer camadas de segurança específicas.
A Emergente Superfície de Ataque em AI
A superfície de ameaças de AI abrange uma stack em camadas: do hardware físico (CPU e GPU) até APIs e agentes. Plataformas de MLOps como Kubeflow e MLflow gerenciam artefatos de modelos e pipelines de treinamento que, se comprometidos, podem expor dados sensíveis.
No runtime, mecanismos de inferência como vLLM e TensorRT-LLM são executados com altos privilégios e acesso sustentado à GPU. Camadas de agentes construídas com LlamaIndex ou LangChain conectam modelos a ferramentas e dados dinamicamente. Qualquer fragilidade nessa cadeia pode resultar em roubo de modelos, exposição de dados ou abuso de GPU em larga escala.
Modelo de Responsabilidade Compartilhada na OCI
É vital entender que, no OKE, a Oracle gerencia o control plane (API server, etcd), mas a segurança da aplicação e do data plane (worker nodes) recai sobre o cliente. Se houver uma vulnerabilidade no runtime da aplicação, a responsabilidade de detecção e mitigação é da sua equipe de engenharia.
Proliferação de Ameaças em AI
Recentemente, vimos ataques sofisticados que servem de alerta para arquitetos de soluções:
- Julho 2025: Vulnerabilidade RCE no LangFlow Server permitindo takeover de pipelines.
- Julho 2025: Nvidia Container Escape, permitindo que o atacante saísse do container para o host da GPU.
- Novembro 2025: ShadowRay 2.0, explorando servidores de inferência para malware em nuvem.
Lições Aprendidas e a Abordagem Sysdig
A maioria desses ataques ocorre dentro de cargas de trabalho em execução, frequentemente via supply-chain ou explorações de zero-day. A detecção baseada apenas em métricas simples não é suficiente — atacantes podem manter o uso de GPU baixo para evitar alertas, como visto no ShadowRay 2.0.
A Sysdig protege essas cargas através de três pilares:
- Runtime Insights: Visibilidade profunda e em tempo real com correlação multi-domínio.
- Agentic AI: Ações precisas para interromper ameaças como escapes de container.
- Inovação Aberta: Baseada em políticas transparentes e regras controladas pelo cliente.
Arquitetura de Referência: OKE + GPU + Sysdig
Para operacionalizar essa segurança, o foco deve ser:
- Harden Posture: Varreduras de IaC com detecção de drift e análise de SBOMs para evitar dependências envenenadas no pipeline CI/CD.
- Proteção de Perímetro em Runtime: Detecção quase em tempo real para identificar comportamentos anômalos em workflows de inferência.
- Resposta em Cloud Speed: Automação via Sysdig SAGE (Agentic AI) para mitigar riscos antes que o custo de uma violação se torne proibitivo.
Blueprints e Landing Zones
A segurança não deve ser um pensamento tardio. A Sysdig e a Oracle desenvolveram blueprints de "Quick Start" que utilizam Terraform para implantar clusters OKE já integrados ao Sysdig Secure por padrão. Isso garante que a observabilidade e a detecção de ameaças façam parte do design inicial, não sendo algo adaptado às pressas após o deploy.
Conclusão
O OKE na OCI oferece uma base resiliente para IA, mas garantir o que roda sobre ela é um desafio contínuo. Enquanto o mercado foca muito na camada de prompts, os riscos reais de infraestrutura e supply-chain podem paralisar operações. A combinação de uma infraestrutura robusta com ferramentas de visibilidade profunda como a Sysdig é o caminho para escalar inteligência com segurança.
Artigo originalmente publicado por Sonali Mishra e Manuel Boira Cuevas em cloud-infrastructure.