Esta semana em cloud (23–29/mar): a borda do cluster trocou de dono

TL;DR: A KubeCon Europe foi pano de fundo, mas o tema da semana foi a borda do cluster trocando de dono: o Higress entrou na CNCF como saída do Nginx Ingress, descontinuado em 2026, e o Istio levou o service mesh para inferência. Na governança, Kyverno se graduou e Kubescape 4.0 chegou a GA em runtime. Por baixo, DRA, OpenCost e a distribuição de pesos de modelo mostraram que a conta da IA é de rede, custo e supply chain.

Foi uma semana de KubeCon, e em semana de KubeCon o calendário da CNCF dita o ritmo. Mas o que costuma vir desses anúncios é uma enxurrada de projetos novos e versões incrementais que pouco mudam o dia a dia de quem opera. Desta vez foi diferente: por baixo do volume, havia um tema único e bem nítido — a borda do cluster, aquela camada de rede que decide quem entra, está sendo reconstruída ao mesmo tempo em que precisa aprender a lidar com tráfego de inferência.

Três movimentos se encaixam nesse mesmo tabuleiro. O Higress entrou na CNCF apontado como caminho de saída do Nginx Ingress, cuja descontinuação está marcada para 2026. O Istio anunciou ambient multi-cluster e uma extensão de inferência para a Gateway API. E o Kyverno se graduou, consolidando o Policy-as-Code como a camada de governança que precede qualquer uma dessas migrações. Some a isso o lado menos glamouroso — DRA estabilizando a gestão de GPU, OpenCost dando visibilidade de custo, e a constatação de que mover pesos de modelo é hoje um problema de supply chain — e o retrato fica completo.

A leitura para quem opera infra no Brasil é a de sempre, em escala nova: a IA generativa não pediu novos paradigmas, ela cobrou maturidade nos antigos. Rede, governança, custo e segurança de cadeia de suprimentos — os mesmos quatro pilares, agora com uma fatura de inferência pendurada em cada um.

Por que o Higress e o Istio estão redesenhando a borda do cluster ao mesmo tempo?

A descontinuação do Nginx Ingress, marcada para 2026, deixou um vácuo que dois projetos correram para ocupar nesta semana — e por ângulos complementares. O Higress, aprovado como projeto Sandbox da CNCF, se apresenta como gateway unificado construído sobre Envoy e Istio, consolidando num único control plane o que antes eram três camadas separadas: ingress controller, microservices gateway e AI gateway. Para quem depende pesadamente de annotations legadas do Nginx, o argumento é direto: um substituto drop-in, com a migração facilitada pela compatibilidade, mas trocando um modelo de configuração vulnerável por um control plane baseado em xDS e sandboxing via WebAssembly.

O diferencial do Higress, porém, não é só ser um Nginx melhor. É tratar tráfego de LLM como cidadão de primeira classe: token-based rate limiting, suporte nativo ao Model Context Protocol (MCP) e fallback entre modelos. Na prática, é a admissão de que o gateway de borda virou ponto de governança de custo de IA — porque é ali, e não na aplicação, que você consegue impedir que requisições de inferência ineficientes drenem o throughput (e o orçamento) da plataforma.

Do outro lado do mesmo problema, o Istio usou a KubeCon Europe para reposicionar o service mesh. O modo ambient — que elimina os sidecars, historicamente o calcanhar de Aquiles de FinOps e latency em malhas grandes — ganhou suporte beta a multi-cluster. E chegou a Gateway API Inference Extension, que traz o padrão de roteamento da Gateway API para dentro do contexto de inferência, permitindo tratar o encaminhamento de modelos como parte da definição de infraestrutura. Há ainda o suporte experimental ao agentgateway, sinalizando que a malha quer ser componente ativo no controle de tráfego gerado por agentes, não apenas um tubo inteligente.

O dado que amarra os dois anúncios vem da própria CNCF: 66% das organizações já operam cargas de GenAI em Kubernetes, mas a maturidade na entrega frequente ainda é baixa. Traduzindo para o Brasil — onde eficiência de recursos e controle de latency são inegociáveis —, a mensagem é que a borda do cluster deixou de ser plumbing comoditizado e voltou a ser decisão de arquitetura. Quem tratar a migração do Nginx como troca mecânica de controlador vai perder a janela de repensar onde governar custo e segurança de IA.

Precisa planejar a saída do Nginx Ingress ou estruturar a governança de tráfego de IA na borda do seu cluster? Fale com os especialistas em Cloud Native da Nuvem Online.

Governança virou pré-requisito: Kyverno graduado, Kubescape 4.0 e o relógio de 22 segundos

Antes de plugar qualquer agente ou modelo em produção, alguém precisa garantir que os guardrails estão de pé — e três fatos da semana mostram que essa camada amadureceu de vez. A graduação do Kyverno na CNCF é o mais simbólico: graduação é o selo mais alto da fundação, com auditoria de segurança e governança aberta, e significa que o projeto é considerado seguro como motor padrão de Policy-as-Code em produção. A migração para CEL (Common Expression Language) o coloca em sintonia com o futuro do admission control do Kubernetes — performance melhor, longevidade garantida — e a interoperabilidade com Argo CD e Backstage reforça sua vocação de virar o motor de governança das internal developer platforms.

No mesmo eixo, o Kubescape 4.0 levou a detecção de ameaças em runtime ao estado de GA, também usando regras baseadas em CEL para analisar processos, syscalls, rede e I/O com uso eficiente de recursos. Duas decisões arquiteturais merecem nota de quem opera em escala: o Kubescape Storage em GA, usando a Aggregated API para desonerar o etcd do peso de SBOMs e manifests de vulnerabilidade; e a descontinuação do host-sensor, cujas funções migraram para o node-agent, eliminando a dor de gerir múltiplos DaemonSets privilegiados e reduzindo a superfície de ataque. A ferramenta também mapeou 42 pontos de configuração crítica específicos para orquestradores de IA — a admissão de que agentes de inferência são um novo vetor a auditar.

Por que esse rigor de repente importa tanto? O M-Trends 2026, da Mandiant/Google Cloud, baseado em 500 mil horas de investigação, dá a resposta em um número: o tempo entre o acesso inicial e a entrega do ambiente a um operador de ransomware encolheu de 8 horas em 2022 para 22 segundos em 2025. Não há analista humano que responda nessa janela — alertas de baixa severidade precisam virar gatilho de automação. O relatório aponta ainda a virada do ransomware para negação de recuperação: o alvo agora é o backup, o Active Directory e os hypervisors, para tornar a restauração impossível e forçar o pagamento. O setor de tecnologia ultrapassou o financeiro como o mais visado (17% contra 14,6%), e o vishing (phishing por voz) saltou para 11% dos vetores. A defesa que o relatório prescreve é arquitetural, não reativa: isolar o Tier-0, usar armazenamento imutável e parar de reter logs por apenas 90 dias.

A conta da IA não vem em GPU: DRA, custo e o peso dos modelos

Enquanto os holofotes ficam no modelo, o gargalo real está na infraestrutura que o cerca — e a semana entregou três peças desse quebra-cabeça. A primeira é a maturação do Dynamic Resource Allocation (DRA), que atingiu o status estável no Kubernetes 1.34. O modelo antigo de Device Plugins tratava aceleradores como inteiro simples (gpu: 1), sem suporte a GPU fracionada nem granularidade. O DRA inverte a lógica com ResourceClaim e ResourceSlice: o time declara o que a carga exige — "qualquer GPU com pelo menos 40 GB de VRAM", ou GPU e NIC no mesmo barramento PCIe para minimizar latency — e o scheduler ganha visão semântica do hardware. Com NVIDIA e Google doando drivers para a comunidade e o Kubernetes AI Conformance program tornando o DRA obrigatório na versão 1.35, ignorar essa mudança virou aceite de dívida técnica.

A segunda peça é o custo. O OpenCost — que a Oracle detalhou rodando no OKE — resolve a cegueira financeira de clusters multi-tenant: ferramentas nativas do provedor enxergam o preço da VM, mas não sabem o que acontece dentro dos containers. O OpenCost detecta o provedor automaticamente (inclusive OCI, via node.spec.providerID), coleta métricas pelo Prometheus e quebra o gasto por namespace, deployment ou label, viabilizando chargeback real. É a base de qualquer cultura de FinOps em Kubernetes: sem atribuição, GPU cara compartilhada é dinheiro que vaza sem dono.

A terceira peça é a mais subestimada. Um artigo da CNCF, assinado por mantenedores de Harbor, Dragonfly e ModelPack, cravou que a distribuição de pesos de modelo é hoje tratada como improviso — scripts ad hoc, cópias manuais entre buckets — enquanto containers seguem versionamento rigoroso em registries OCI. O problema é de escala física: um LLaMA-3 70B quantizado gira em torno de 140 GB, modelos multimodais de fronteira passam de 1 TB. A proposta é tratar pesos como artefatos OCI de primeira classe, empacotados nos mesmos registries da aplicação, herdando supply chain security, assinatura via Cosign e GitOps. O Harbor entra como camada de RBAC e imutabilidade (SHA256 digests para inferência determinística); o Dragonfly usa distribuição P2P com pré-aquecimento para reduzir o boot de nós de inferência de minutos para milissegundos; e os OCI Volumes (ImageVolumes, nativos desde o Kubernetes 1.33) montam camadas de modelo sem driver externo. É a mesma lição das outras seções: a IA não inventou um problema novo, ela cobrou que você aplicasse o rigor de software a um artefato que vinha sendo movido na base do scp.

O que levar desta semana

A KubeCon Europe não trouxe um paradigma novo — trouxe a fatura de maturidade de quatro frentes que já existiam, agora com peso de produção. Rede: a borda do cluster está sendo reconstruída (Higress saindo do Nginx, Istio ambient para inferência), e tratar isso como troca mecânica de controlador é perder a chance de governar custo de IA no ponto certo. Governança: Kyverno graduado e Kubescape 4.0 em runtime GA são o pré-requisito, não o opcional — e o relógio de 22 segundos do M-Trends 2026 explica a urgência. Infraestrutura de IA: DRA estável, OpenCost para chargeback e distribuição de modelos como artefato OCI são o que separa "demo que roda" de "plataforma que escala sem falir". Quem operar essas frentes com disciplina vai colher a inteligência sem pagar a estabilidade. Quem só consumir o keynote vai descobrir, no primeiro incidente ou na primeira fatura, que IA em produção é, antes de tudo, infraestrutura cloud native bem operada.

Perguntas Frequentes

O Nginx Ingress vai mesmo ser descontinuado? Preciso migrar agora?
Sim, a descontinuação do Ingress Nginx foi sinalizada para 2026 e manter um controlador em fim de vida na borda do cluster é exposição de segurança, não só dívida técnica. O Higress, que entrou na CNCF como projeto Sandbox nesta semana, se posiciona como substituto drop-in para quem depende de annotations legadas, com control plane baseado em xDS e extensibilidade via WebAssembly. Comece pelo inventário de annotations antes de escolher o destino.

O que muda na prática com a graduação do Kyverno?
Graduação é o selo de maturidade mais alto da CNCF, com auditoria de segurança e governança aberta — sinal de que o Kyverno é seguro como motor padrão de Policy-as-Code em produção. A migração para CEL (Common Expression Language) alinha o projeto ao futuro do admission control do Kubernetes, com performance melhor e longevidade. Na prática, dá para definir guardrails declarativos em YAML e plugá-los em fluxos de GitOps sem aprender uma linguagem nova.

DRA atingiu estável em qual versão do Kubernetes e por que isso importa?
O Dynamic Resource Allocation alcançou o status estável no Kubernetes 1.34. Ele substitui o modelo binário do Device Plugins (gpu: 1) por requisições granulares via ResourceClaim e ResourceSlice — dá para pedir "qualquer GPU com pelo menos 40 GB de VRAM" ou exigir GPU e NIC no mesmo barramento PCIe. O Kubernetes AI Conformance program tornou o suporte a DRA obrigatório na versão 1.35, o que o consolida como padrão para plataformas de IA.

Como controlo o custo de Kubernetes em um cluster multi-tenant?
Ferramentas nativas do provedor enxergam o custo da VM, mas são cegas ao que acontece dentro dos containers. O OpenCost preenche essa lacuna: detecta o provedor automaticamente (inclusive OCI, via node.spec.providerID), coleta métricas pelo Prometheus e quebra o gasto por namespace, deployment ou label customizada. Isso viabiliza chargeback real em clusters compartilhados e transforma custo de infraestrutura em métrica de eficiência.

O que o M-Trends 2026 muda na minha postura de resposta a incidentes?
O dado mais brutal é a velocidade: o tempo entre o acesso inicial e a entrega do ambiente a um operador de ransomware caiu de 8 horas em 2022 para 22 segundos em 2025. Isso inviabiliza resposta manual — alertas de baixa severidade precisam virar gatilho de automação. Some o foco em negação de recuperação (atacar backup, Active Directory e hypervisors) e a recomendação é clara: isole o Tier-0, use armazenamento imutável e aumente a retenção de logs além dos 90 dias padrão.

Fontes: