Esta semana em cloud (20–26/abr): a conta dos agentes começou a chegar

Q: O que levar desta semana

A Agentic Era é real, mas o trabalho que ela cria é o de sempre, em escala nova. Antes de plugar o primeiro agente em produção, três frentes precisam estar maduras, e todas apareceram nesta semana: segurança da base (Kubelet em least-privilege, Gateway API no lugar do Ingress EOL, supply chain com pinning), observabilidade do custo (token e inferência como métrica de FinOps de primeira classe, não como surpresa na fatura) e higiene de deprecation (subnet privada, .NET 8, SELinux 1.

Banner - Esta semana em cloud (20–26/abr): a conta dos agentes começou a chegar

TL;DR: Foi a semana do Google Cloud Next '26 e da narrativa agentic. Mas o subtexto operacional foi mais relevante: Kubernetes 1.36 e Gateway API v1.5 fecharam dívidas de segurança e rede, Grafana ergueu a observabilidade de token e agentes a sinal de primeira classe, e um ataque de supply chain no npm (axios) lembrou que o básico ainda derruba pipeline. Para quem opera no Brasil, a conta dos agentes é latency, custo de token e higiene de deprecation.

Houve uma semana em que o discurso e a infraestrutura andaram em camadas diferentes — e foi exatamente essa fricção que a tornou interessante. No palco de Las Vegas, o Google Cloud Next '26 declarou encerrada a fase da "prova de conceito" e abriu a Agentic Era: agentes que agem sozinhos em produção. Enquanto isso, longe dos holofotes, os projetos que de fato sustentam esses agentes — Kubernetes, Gateway API, a stack de observabilidade — passaram a semana consertando as fundações. E, no meio do caminho, um pacote npm comprometido lembrou a todos que a borda mais frágil de qualquer arquitetura de IA continua sendo o npm install do seu pipeline.

A leitura para quem opera infra no Brasil é direta: a conta dos agentes chegou, e ela não vem em GPUs. Vem em latency, em custo de token e na higiene chata de quem precisa apagar dívida técnica antes de escalar inteligência.

O Next '26 vendeu o agente. Quem vai pagar a fatura de token?

O recado central do Google Cloud Next '26 foi consistente entre os anúncios: parar de tratar IA como experimento e tratá-la como ativo operacional, tão confiável quanto o core banking. A peça principal é a Gemini Enterprise Agent Platform, evolução do Vertex AI que entrega um ciclo de vida completo — com Agent Registry, Agent Gateway, Agent Identity e, crucialmente para quem opera, Agent Observability e Agent Anomaly Detection. Por baixo, novo silício: as TPU 8t (training) e TPU 8i (inference), com a promessa — segundo o Google — de performance-per-dollar até 80% superior na inferência para cargas Mixture of Experts. No plano de dados, o Agentic Data Cloud aposta em federação cross-cloud via Apache Iceberg para que o agente tenha contexto sem mover petabytes para um único silo.

O vocabulário muda, mas o problema de engenharia é velho conhecido: governança e custo. A própria Google admite que "razão sem contexto é apenas um palpite" — o que, traduzido para o orçamento, significa que cada chamada de agente é uma query que consome token e gera fatura. É aqui que o entusiasmo de keynote encontra a realidade do FinOps brasileiro. Um agente que itera centenas de vezes por hora multiplica o gasto de inferência na mesma proporção, e sem atribuição de custo por projeto, ninguém sabe onde o dinheiro está vazando.

Não por acaso, no mesmo período a AWS levou ao Bedrock a atribuição granular de custo de inferência por IAM principal — finalmente é possível saber qual time está queimando o budget de IA. Combine isso com o ângulo de infraestrutura que a Equinix levantou na semana: escalar agentes autônomos é, na essência, um problema de connectivity, latency e data gravity, não de compute bruto. Para empresas no Brasil, distantes dos grandes data centers, milissegundos de rede a mais por iteração viram horas de processamento desperdiçado. A pergunta deixou de ser "quanta GPU eu tenho" e passou a ser "onde esse compute está em relação ao meu dado — e quanto custa cada token que ele gasta".

Precisa colocar o custo de token e a latency dos seus agentes sob controle de FinOps antes de escalar? Fale com os especialistas da Nuvem Online.

Como o Kubernetes 1.36 e a Gateway API v1.5 consertam o que estava embaixo do agente?

Enquanto o Next vendia o topo do stack, a comunidade Kubernetes passou a semana reforçando a base. O Kubernetes v1.36 (Haru) saiu com 70 aprimoramentos, mas o que importa para quem roda produção é uma mudança de segurança que estava atrasada há anos: a autorização granular do Kubelet (KubeletFineGrainedAuthz) atingiu GA. Historicamente, dar acesso ao Kubelet era binário — para ler uma métrica de um DaemonSet do Prometheus, você concedia nodes/proxy, a mesma permissão que autoriza exec arbitrário num container. Na prática, todo agente de monitoramento carregava poder de superusuário no nó.

A urgência é concreta: o handshake WebSocket é interpretado pelo Kubelet como um GET, o que permitia contornar a autorização de escrita e abrir caminho para RCE pela porta 10250 — e a configuração permissiva ainda é padrão em vários Helm charts populares. Com o GA, surgem sub-recursos específicos (nodes/metrics, nodes/stats, nodes/pods), e o least-privilege vira configuração trivial. A transição é transparente — o Kubelet faz dual-check com fallback para nodes/proxy — mas o trabalho de casa é seu: mapear todos os ClusterRoleBindings que ainda usam a permissão antiga e substituí-los.

No mesmo movimento, a Gateway API v1.5 (release 1.5.1) graduou para o canal Standard um conjunto que muda a borda do cluster: ListenerSet (que destrava Gateways com mais de 64 listeners e governança descentralizada por squad), TLSRoute com SNI, filtro de CORS no HTTPRoute, validação de certificado de cliente (mTLS) e o ReferenceGrant em v1 para segurança cross-namespace. Para setores regulados — banking, fintech —, o suporte a mTLS frontend e originação TLS upstream é o que torna Zero Trust em container algo padronizado em vez de gambiarra.

Os dois lançamentos convergem num ponto que a própria release do 1.36 sublinha: a aposentadoria do Ingress NGINX, formalizada em março de 2026. Manter um controlador EOL na borda não é dívida técnica, é exposição. E aqui a CNCF publicou nesta semana um relato prático que vale como benchmark de método: uma migração de mais de 60 recursos do Ingress NGINX para o Higress (CNCF Sandbox, construído sobre Envoy e Istio) em cerca de 30 minutos, usando agentes de IA para fazer gap analysis das anotações, simular num "digital twin" via Kind e converter snippets em plugins WASM. Não é receita universal — é prova de que a migração que parece um projeto de meses pode ser tratada como tarefa assistida, desde que você comece pelo inventário.

Um alerta para o próximo ciclo: o SELinux volume labeling muda de comportamento padrão no v1.37. A nova montagem com -o context=<label> resolve latency em volumes com muitos inodes, mas quebra cenários em que pods privilegiados e não privilegiados compartilham o mesmo volume — o pod fica preso em ContainerCreating. Ative o selinux-warning-controller agora e monitore a métrica de conflito antes que vire incidente.

Observabilidade deixou de ser sobre CPU. É sobre o que o agente está fazendo

Se os agentes vão para produção, a pergunta de SRE muda. CPU usage, request latency e error rate continuam vitais, mas são mudos quanto à semântica da IA: o agente está alucinando? O custo de token está degradando silenciosamente? A GrafanaCON 2026, em Barcelona, organizou boa parte de seus anúncios em torno dessa lacuna.

O Grafana 13 entregou maturidade operacional — Git Sync em GA (dashboards como código, auditável), o Grafana Advisor como health check da própria plataforma para quem faz self-hosting, e suggested/dynamic dashboards para cortar tempo de configuração. Mas a história mais estratégica é o AI Observability no Grafana Cloud (public preview): tratar sessões de agente como sinal de telemetria de primeira classe, instrumentadas via OpenTelemetry, capturando generations, uso de ferramentas, latency e — o que mais interessa ao financeiro — custo de token por operação, filtrável por modelo e provider. É a contrapartida operacional exata da euforia do Next: enquanto um lado vende o agente, o outro entrega o painel para você não falir rodando ele.

A Grafana também atacou o custo bruto da stack. O Pyroscope 2.0 rearquiteta o continuous profiling para um modelo stateless, removendo replicação no write path — validado, segundo a empresa, processando 19,5 PB de dados —, o que reduz o TCO de manter profiling sempre ligado. E a aquisição da Logline, anunciada pela Grafana na GrafanaCON, ataca o calcanhar do Loki: queries de alta cardinalidade ("agulha no palheiro", como buscar um UUID). O número que a empresa apresentou é expressivo — uma consulta que varria 3,5 TB caiu para 8 GB lidos, ~99,7% menos I/O —, o que em cloud vira fatura de leitura de bucket menor.

Há ainda um sinal de maturidade que merece nota: o o11y-bench, benchmark open source da Grafana para avaliar agentes de IA em fluxos reais de observabilidade — 63 tarefas sobre PromQL, LogQL, TraceQL e investigação de incidentes, rodadas contra uma stack Grafana real. A lição publicada é honesta e contra o hype: o divisor de águas não é acertar uma vez (Pass@3), é consistência (Pass^3). Em observabilidade, "o agente parece bom em demo" e "o agente é confiável no incidente das 3h da manhã" são coisas diferentes — e a segunda é a única que importa quando você delega triage a uma IA.

O básico ainda derruba: supply chain, deprecations e a borda da internet

No meio de tanta inteligência, a semana entregou o lembrete mais analógico possível. O blog de DevOps da Microsoft publicou orientação sobre o comprometimento de supply chain no axios: em 31 de março de 2026, versões maliciosas (1.14.1 e 0.30.4) foram publicadas no npm, carregando uma dependência oculta que abria canal C2 e baixava um loader de segundo estágio. O Azure Pipelines como serviço não foi invadido — mas isso é irrelevante: o dano acontece dentro do seu job, onde secrets e tokens de service connection ficam expostos. A mitigação é tediosamente fundamental e vale para qualquer esteira, GitLab CI ou GitHub Actions incluídos: npm ci em vez de npm install, pinning de versões críticas, menor privilégio em service connections e reimaging de self-hosted runners por causa do cache local. O Google Threat Intelligence Group reforçou a lição na mesma semana ao detalhar o grupo UNC6692, que se passa por helpdesk no Microsoft Teams e usa ferramentas legítimas (AutoHotKey, Python) para "viver da cloud" — a defesa passa por inspeção de tráfego outbound, não por reputação de IP.

O que conecta tudo isso é a tendência secure-by-default, que a própria cloud está empurrando — às vezes na sua cara. O Azure passou a criar subnets privadas por padrão (API 2025-07-01+), removendo o acesso outbound implícito à internet. É a postura certa para Zero Trust, mas quebra deployments novos: patching de SO, pull de imagens do Docker Hub e chamadas a SaaS param até você configurar saída explícita via StandardV2 NAT Gateway. Workloads existentes seguem intactos, e — atenção, time de IaC — o Terraform ainda não reflete esse default. Some a isso o fim do suporte ao .NET 8 (LTS) em 10 de novembro de 2026: app continua rodando, mas sem patch de segurança. Deprecation não é evento, é processo — e ignorá-lo é como deixar o Ingress NGINX EOL na borda: funciona, até o dia em que não funciona.

O que levar desta semana

A Agentic Era é real, mas o trabalho que ela cria é o de sempre, em escala nova. Antes de plugar o primeiro agente em produção, três frentes precisam estar maduras, e todas apareceram nesta semana: segurança da base (Kubelet em least-privilege, Gateway API no lugar do Ingress EOL, supply chain com pinning), observabilidade do custo (token e inferência como métrica de FinOps de primeira classe, não como surpresa na fatura) e higiene de deprecation (subnet privada, .NET 8, SELinux 1.37 — itens chatos que viram incidente quando esquecidos). Quem operar essas três frentes com disciplina vai colher a inteligência sem pagar a estabilidade. Quem só comprar a narrativa de keynote vai descobrir, na primeira fatura ou no primeiro incidente, que agente em produção é, antes de tudo, infraestrutura bem operada.

Perguntas Frequentes

Preciso migrar do Ingress NGINX agora?
Sim, é prioridade de roadmap. O Ingress NGINX foi aposentado em março de 2026 e manter um controlador EOL na borda do cluster é risco de segurança, não só dívida técnica. O destino natural é a Gateway API v1.5, que estabilizou ListenerSet, TLSRoute e mTLS no canal Standard.

O que muda de fato no Kubernetes 1.36 para quem só roda workloads?
O ganho silencioso é de segurança: a autorização granular do Kubelet (KubeletFineGrainedAuthz) chegou a GA e elimina a necessidade de dar nodes/proxy — permissão de superusuário no nó — para agentes de monitoramento. Audite seus ClusterRoleBindings que ainda usam nodes/proxy e migre para sub-recursos como nodes/metrics e nodes/stats.

Como controlo o custo de rodar agentes de IA em produção?
Trate token e custo de inferência como métrica de FinOps de primeira classe. Grafana Cloud lançou AI Observability em public preview com instrumentação via OpenTelemetry para capturar latency, uso de tokens e custo por operação; a AWS adicionou atribuição granular de custo de inferência por IAM principal no Bedrock. Sem isso, o gasto de token sobe de forma silenciosa.

O ataque ao axios no npm me afeta se eu uso Azure Pipelines ou GitLab CI?
Afeta qualquer esteira que resolve dependências em runtime sem pinning. As versões maliciosas axios 1.14.1 e 0.30.4 (publicadas em 31/03/2026) exfiltravam secrets durante o job. Use npm ci em vez de npm install, fixe versões críticas, limite o escopo de service connections e, em self-hosted runners, considere reimaging por causa de cache local.

Subnet privada por padrão no Azure pode quebrar meu deployment novo?
Pode, em VNets criadas com a API 2025-07-01 ou posterior: novas VMs perdem o acesso outbound implícito à internet. Patching de SO, pull de imagens do Docker Hub e chamadas a SaaS param até você configurar saída explícita (o Azure recomenda StandardV2 NAT Gateway). Workloads e VNets existentes não são afetados, e o Terraform ainda não reflete o novo default.

Fontes: