Observabilidade de Rede de Alta Fidelidade no AKS: O que muda com o ACNS
Este artigo detalha a disponibilidade geral do Advanced Container Networking Services (ACNS) no Azure Kubernetes Service (AKS). A conclusão principal é que a introdução nativa de filtragem de métricas e agregação de logs no nível do nó permite que times de engenharia reduzam drasticamente o ruído e o custo de observabilidade (até 97% em testes), mantendo o contexto de segurança e rede necessário, sem depender de customizações complexas de pipelines de dados.
O desafio da observabilidade no Kubernetes
A maioria dos times de engenharia enfrenta um dilema clássico ao implementar observabilidade em clusters Kubernetes: coletar tudo gera um volume proibitivo de dados e custos insustentáveis, enquanto o uso de amostragem (sampling) pode ocultar sinais críticos de erro. O ACNS, agora em General Availability (GA), propõe uma quebra nesse paradigma ao oferecer filtragem nativa de métricas e agregação de logs de rede.
Por que este é um marco para operações cloud?
O Azure consolidou-se como o primeiro provedor cloud a entregar filtragem em nível de nó e agregação de logs de fluxo diretamente na infraestrutura de rede do Kubernetes. Além disso, a Microsoft optou por contribuir com essas inovações para o ecossistema upstream do Hubble (a camada de observabilidade do Cilium), beneficiando a comunidade open-source e evitando o lock-in total da tecnologia.
Como funcionam as novas capacidades
- Container Network Metrics Filtering: Agora, o controle de ingestão ocorre diretamente no nó. Através do CRD
ContainerNetworkMetric, engenheiros podem definir exatamente quais tipos de métricas (DNS, TCP, drops, fluxos) devem ser coletados. O que não é necessário é descartado na origem, sem sobrecarregar o stack de monitoramento. - Container Network Log Filtering and Aggregation: Diferente das métricas, os logs são gerados por demanda através do
ContainerNetworkLogCRD. A inovação central aqui é a agregação: registros similares são sumarizados a cada 30 segundos, preservando os security verdicts (decisões sobre a política de rede) e contextos de erro, reduzindo o volume de logs armazenados em até 97%.
Impacto estratégico para empresas brasileiras
Para empresas brasileiras que operam em ambientes multi-tenant ou que possuem cargas de trabalho sensíveis a latência e custo, o ACNS traz três benefícios práticos imediatos:
- Previsibilidade Financeira: A observabilidade escala de acordo com a criticiadade do serviço monitorado, não apenas com o tamanho do cluster.
- Redução de MTTR: Com fluxos direcionados e já filtrados, incidentes de rede (como packet drops ou falhas de DNS) são isolados em minutos, eliminando a exaustiva triagem manual em volumes massivos de logs.
- Eficiência Operacional: A integração out-of-the-box com o Azure Monitor e dashboards nativos facilita a vida do time de SRE que já utiliza a stack Microsoft.
Primeiros passos para implementação
Para adotar essas melhorias, o cluster deve rodar o plano de dados (data plane) Cilium. Se você estiver criando um novo cluster, utilize o comando:
az aks create --enable-acns
Em clusters existentes, o update também é simples:
az aks update --resource-group $RESOURCE_GROUP --name $CLUSTER --enable-acns
Após habilitar, o foco deve ser definir os CRDs (Custom Resource Definitions) de métricas e logs para começar a filtrar o ruído e extrair apenas o sinal que realmente importa para a saúde do seu negócio.
Perguntas Frequentes
-
Como a filtragem de métricas no ACNS reduz custos?
A filtragem ocorre no nível do nó (on-node), permitindo descartar métricas desnecessárias antes de serem coletadas pelo Prometheus. Isso reduz drasticamente o tráfego de ingestão e o volume de dados processados. -
A agregação de logs do ACNS sacrifica a segurança?
Não. A agregação agrupa fluxos semelhantes a cada 30 segundos para reduzir o volume, preservando as decisões de política e o contexto de erro essenciais para auditoria. -
É necessário reiniciar o Cilium ou Prometheus após configurar filtros?
Não. As mudanças são aplicadas em poucos segundos via CRDs, sem a necessidade de reiniciar os agentes de rede. -
O ACNS é uma solução exclusiva do Azure?
A experiência gerenciada é nativa do Azure, mas a tecnologia foi contribuída para o projeto upstream Hubble.
Artigo originalmente publicado em Azure Updates - Latest from Azure Charts.