1 de maio de 20264 min de leitura

Observabilidade de Rede de Alta Fidelidade no AKS: O que muda com o ACNS

(autor não identificado)

Azure

Banner - Observabilidade de Rede de Alta Fidelidade no AKS: O que muda com o ACNS

Observabilidade de Rede de Alta Fidelidade no AKS: O que muda com o ACNS

Este artigo detalha a disponibilidade geral do Advanced Container Networking Services (ACNS) no Azure Kubernetes Service (AKS). A conclusão principal é que a introdução nativa de filtragem de métricas e agregação de logs no nível do nó permite que times de engenharia reduzam drasticamente o ruído e o custo de observabilidade (até 97% em testes), mantendo o contexto de segurança e rede necessário, sem depender de customizações complexas de pipelines de dados.

O desafio da observabilidade no Kubernetes

A maioria dos times de engenharia enfrenta um dilema clássico ao implementar observabilidade em clusters Kubernetes: coletar tudo gera um volume proibitivo de dados e custos insustentáveis, enquanto o uso de amostragem (sampling) pode ocultar sinais críticos de erro. O ACNS, agora em General Availability (GA), propõe uma quebra nesse paradigma ao oferecer filtragem nativa de métricas e agregação de logs de rede.

Por que este é um marco para operações cloud?

O Azure consolidou-se como o primeiro provedor cloud a entregar filtragem em nível de nó e agregação de logs de fluxo diretamente na infraestrutura de rede do Kubernetes. Além disso, a Microsoft optou por contribuir com essas inovações para o ecossistema upstream do Hubble (a camada de observabilidade do Cilium), beneficiando a comunidade open-source e evitando o lock-in total da tecnologia.

Visão geral da observabilidade ACNS

Como funcionam as novas capacidades

  • Container Network Metrics Filtering: Agora, o controle de ingestão ocorre diretamente no nó. Através do CRD ContainerNetworkMetric, engenheiros podem definir exatamente quais tipos de métricas (DNS, TCP, drops, fluxos) devem ser coletados. O que não é necessário é descartado na origem, sem sobrecarregar o stack de monitoramento.
  • Container Network Log Filtering and Aggregation: Diferente das métricas, os logs são gerados por demanda através do ContainerNetworkLog CRD. A inovação central aqui é a agregação: registros similares são sumarizados a cada 30 segundos, preservando os security verdicts (decisões sobre a política de rede) e contextos de erro, reduzindo o volume de logs armazenados em até 97%.

Impacto estratégico para empresas brasileiras

Para empresas brasileiras que operam em ambientes multi-tenant ou que possuem cargas de trabalho sensíveis a latência e custo, o ACNS traz três benefícios práticos imediatos:

  1. Previsibilidade Financeira: A observabilidade escala de acordo com a criticiadade do serviço monitorado, não apenas com o tamanho do cluster.
  2. Redução de MTTR: Com fluxos direcionados e já filtrados, incidentes de rede (como packet drops ou falhas de DNS) são isolados em minutos, eliminando a exaustiva triagem manual em volumes massivos de logs.
  3. Eficiência Operacional: A integração out-of-the-box com o Azure Monitor e dashboards nativos facilita a vida do time de SRE que já utiliza a stack Microsoft.

Primeiros passos para implementação

Para adotar essas melhorias, o cluster deve rodar o plano de dados (data plane) Cilium. Se você estiver criando um novo cluster, utilize o comando:

az aks create --enable-acns

Em clusters existentes, o update também é simples:

az aks update --resource-group $RESOURCE_GROUP --name $CLUSTER --enable-acns

Após habilitar, o foco deve ser definir os CRDs (Custom Resource Definitions) de métricas e logs para começar a filtrar o ruído e extrair apenas o sinal que realmente importa para a saúde do seu negócio.

Perguntas Frequentes

  • Como a filtragem de métricas no ACNS reduz custos?
    A filtragem ocorre no nível do nó (on-node), permitindo descartar métricas desnecessárias antes de serem coletadas pelo Prometheus. Isso reduz drasticamente o tráfego de ingestão e o volume de dados processados.

  • A agregação de logs do ACNS sacrifica a segurança?
    Não. A agregação agrupa fluxos semelhantes a cada 30 segundos para reduzir o volume, preservando as decisões de política e o contexto de erro essenciais para auditoria.

  • É necessário reiniciar o Cilium ou Prometheus após configurar filtros?
    Não. As mudanças são aplicadas em poucos segundos via CRDs, sem a necessidade de reiniciar os agentes de rede.

  • O ACNS é uma solução exclusiva do Azure?
    A experiência gerenciada é nativa do Azure, mas a tecnologia foi contribuída para o projeto upstream Hubble.


Artigo originalmente publicado em Azure Updates - Latest from Azure Charts.

Gostou? Compartilhe:
Precisa de ajuda?Fale com nossos especialistas 👋
Avatar Walcew - Headset