O que há de novo no Azure Kubernetes Service no Microsoft Build 2026
TL;DR: As novidades do AKS no Build 2026 focam em tornar a operação de cargas de IA mais explícita e controlável, com opções que vão desde clusters gerenciados até execução bare metal e orquestração distribuída com Ray. A mensagem central: você não elimina os trade-offs entre custo, latência e confiabilidade, mas pode gerenciá-los de forma deliberada. Para empresas brasileiras que escalam cargas de IA, isso significa mais previsibilidade operacional e escolhas claras de infraestrutura.
Há um ano, times ainda questionavam se Kubernetes tinha lugar perto de workloads de IA. Essa pergunta foi respondida. O desafio real agora é operacional: como rodar treinamento e inferência em escala quando custo, latência e confiabilidade estão constantemente em tensão.
Os anúncios do AKS no Microsoft Build focam diretamente nessa tensão. Eles expandem o que você pode controlar em toda a stack: como clusters individuais são operados, quão perto as workloads rodam do hardware, como você escala uma frota inteira e como workloads de IA são treinadas e servidas.
Comece pelo cluster: reduza trabalho indiferenciado
Grande parte do esforço com Kubernetes ainda vai para manter o cluster em si, em vez de rodar aplicações. Duas atualizações reduzem essa sobrecarga e tornam o comportamento do cluster mais previsível.
Managed system node pools no AKS Automatic agora estão geralmente disponíveis. Esses nós rodam os componentes centrais que mantêm o cluster saudável. Antes, você precisava planejar capacidade, aplicar patches e escalar manualmente. Agora o Azure gerencia esse ciclo de vida. Na prática, componentes de sistema não competem mais com suas workloads por recursos — algo especialmente importante para nós com GPU. Essa separação dá performance mais consistente e menos surpresas quando as workloads escalam.
Azure Container Linux, também GA, padroniza a camada de SO host. É uma distribuição Linux mínima e otimizada para containers, mantida pela Microsoft. O footprint menor de pacotes reduz a sobrecarga de patches e limita deriva entre clusters. Para equipes que operam múltiplos ambientes, isso cria uma baseline consistente, mais fácil de manter e segura ao longo do tempo — algo que se torna crítico à medida que as frotas crescem.
Ajuste para performance: remova gargalos de infraestrutura
Algumas workloads se beneficiam da abstração; outras pagam por ela — especialmente quando se está nos limites do hardware.
AKS on bare metal, agora em public preview, é desenhado para esses casos. Permite rodar AKS em máquinas dedicadas sem hypervisor, dando acesso direto a NVLink, RDMA e redes de alta performance. Você ainda usa o mesmo control plane e APIs do AKS, mas sem a camada extra entre suas workloads e o hardware.
Isso importa para grandes jobs de treinamento, inferência sensível a latência e pipelines de alta throughput, onde pequenas ineficiências se traduzem diretamente em maior custo ou maior tempo de execução. Remover essa sobrecarga melhora performance e utilização conforme você escala.
Escale a frota: opere ambientes como um sistema único
A maioria dos times não gerencia um único cluster — gerencia muitos, frequentemente entre regiões, clouds e ambientes on-prem, e essas diferenças tendem a aparecer como inconsistência operacional.
Azure Kubernetes Fleet Manager para clusters Arc-enabled agora está GA e estende o controle de frota além do Azure. Você pode aplicar updates, políticas e posicionar workloads entre clusters de um único painel, reduzindo a necessidade de gerenciar cada ambiente independentemente.
Para workloads de IA, isso aparece de algumas formas práticas: você pode fazer rollouts progressivos com health checks entre estágios, posicionar workloads baseado em disponibilidade de GPU e SKU, e aplicar RBAC consistentemente entre ambientes. Essa consistência facilita raciocinar sobre confiabilidade e capacidade conforme os sistemas escalam.
A camada de IA: treinamento e inferência como primitivas de primeira classe
Com o cluster e a frota no lugar, o próximo desafio é coordenar workloads de IA distribuídas eficientemente.
Anyscale on Azure, em public preview, traz Ray gerenciado para o AKS. O Kubernetes continua cuidando do scheduling e ciclo de vida do cluster, enquanto o Ray coordena a execução distribuída dentro de uma workload. Isso inclui gerenciar CPUs e GPUs juntos, alocação heterogênea e fracionada de GPU, e orquestrar jobs que escalam dinamicamente baseado em demanda.
O serviço roda dentro da sua subscription Azure, integra com Entra ID, e é faturado através do seu agreement existente. Dá mais controle sobre como o compute é alocado dentro de um job, impactando diretamente eficiência de custo e tempo até conclusão.
Model serving: do YAML aos endpoints de produção
Model serving tem sido uma das partes mais complexas de rodar IA no Kubernetes. Ferramentas open source estão começando a simplificar esse caminho sem substituir a plataforma subjacente.
AI Runway, introduzido no KubeCon Europe, oferece uma forma Kubernetes-native de deploy e operação de modelos. Em vez de começar com configuração, você começa selecionando um modelo, validando que cabe na memória GPU disponível, revisando estimativas de custo e fazendo o deploy. Isso cria um custom resource ModelDeployment, que direciona o resto do workflow.
KAITO (Kubernetes AI Toolchain Operator) cuida de boa parte da orquestração subjacente. Ele estima requisitos de recursos, provisiona nós via ferramentas como Karpenter e lança runtimes otimizados como vLLM. A partir daí, componentes Kubernetes padrão assumem: KEDA gerencia autoscaling baseado em métricas de workload, Gateway API lida com roteamento, e estratégias de rollout seguem padrões familiares do Kubernetes.
AI Runway é uma camada de plataforma, com KAITO como um dos providers ao lado de opções como NVIDIA Dynamo e KubeRay. Suporta múltiplos serving engines, incluindo vLLM, SGLang, TensorRT-LLM e llama.cpp. Essas ferramentas constroem sobre primitivas do Kubernetes em vez de escondê-las, permitindo que você se mova mais rápido sem abrir mão de visibilidade ou controle.
Como isso se parece em produção
Essas capacidades aparecem como padrões consistentes entre equipes, mesmo quando os casos de uso diferem.
Wayve está construindo um AI Driver end-to-end baseado em deep learning que pode ser fine-tuned para dirigir quase qualquer carro, em qualquer cidade, primariamente com câmeras. Treina e valida o modelo no Azure, usando AKS, Ray e agora Anyscale on Azure para conectar milhares de GPUs em um supercomputador flexível. A abordagem generaliza: a Wayve pegou um Nissan novo em Tóquio, uma cidade onde nunca havia dirigido, e o fez dirigir autonomamente em quatro meses. Veículos equipados com Wayve operam agora no Reino Unido, EUA, Alemanha e Japão.
Royal Bank of Canada construiu uma plataforma de IA self-service no AKS onde times de desenvolvimento provisionam recursos GPU e fazem deploy de modelos através de um workflow CI/CD que eles mesmos rodam. KAITO cuida do serving de modelos em produção, com imagens de modelo hospedadas no container registry privado do banco. O perímetro de compliance envolve todo o caminho: private endpoints, Entra ID, Key Vault e um ACR privado mantêm modelos e dados dentro do boundary Azure do banco. Desenvolvedores ganham velocidade self-service; o negócio ganha a segurança e trilha de auditoria que exige.
SimCorp unificou sua plataforma de gerenciamento de investimentos SimCorp One no Azure e padronizou no AKS para rodar workloads consistentemente entre regiões, sem deriva de configuração e sem transformar Kubernetes em um produto que precise operar. Com isso, embedding IA governada e auditável diretamente nos workflows de investimento.
A conclusão prática
O fio condutor dessas atualizações não é que elas removem os trade-offs entre custo, latência e confiabilidade, mas que tornam mais fácil gerenciá-los explicitamente.
Na camada de cluster, você troca controle por simplicidade onde faz sentido, como delegar o gerenciamento de nós de sistema. Na camada de infraestrutura, você pode escolher entre flexibilidade e performance bruta, inclusive decidindo quando rodar diretamente no hardware. Na camada de workload, você decide quão apertado controlar scheduling, scaling e comportamento de serving baseado nas necessidades dos seus modelos.
A abordagem prática é começar pela restrição que mais importa para sua workload. Se custo é o problema, foque em utilização e right-sizing. Se latência é a restrição, olhe para posicionamento e acesso ao hardware. Se confiabilidade é a preocupação, priorize controles de rollout e consistência da frota. O Azure Kubernetes Service expande suas opções em cada uma dessas áreas para que você possa fazer esses trade-offs de forma deliberada, e não contornando-os.
Perguntas Frequentes
-
O que é AKS on bare metal e para que serve?
AKS on bare metal (em preview) permite rodar clusters AKS em servidores dedicados sem hypervisor, dando acesso direto a NVLink, RDMA e rede de alta performance. É ideal para treinamento de modelos grandes, inferência sensível a latência e pipelines de alta throughput, onde pequenas ineficiências se traduzem em custo maior ou tempo de execução mais longo. -
Como o Azure Kubernetes Fleet Manager ajuda em ambientes multi-cloud?
O Fleet Manager para clusters Arc-enabled agora está GA e permite gerenciar clusters fora do Azure (on-prem, outras nuvens) a partir de um único painel. Você pode aplicar updates, políticas e posicionar workloads baseado em disponibilidade de GPU e SKU, além de aplicar RBAC de forma consistente. Reduz a inconsistência operacional em frotas heterogêneas. -
O que é AI Runway e como ele se diferencia de outras ferramentas de serving?
AI Runway é uma camada Kubernetes-native que permite selecionar um modelo, validar memória GPU, estimar custos e criar um ModelDeployment custom resource. Ele usa KAITO como um dos providers (junto com NVIDIA Dynamo e KubeRay) e suporta engines como vLLM, SGLang e TensorRT-LLM. A diferença é que você começa pelo modelo, não pelo YAML, mantendo visibilidade e controle. -
O que muda para empresas brasileiras que já usam AKS para IA?
As atualizações oferecem mais controle granular sobre custo e desempenho: system node pools gerenciados evitam contenção de recursos em nós GPU; bare metal reduz latência; Anyscale on Azure (com Ray) melhora a alocação de GPUs heterogêneas; e o Fleet Manager simplifica a gestão de clusters espalhados por regiões. Times brasileiros podem usar esses recursos para escalar cargas de IA com previsibilidade operacional. -
O que é Anyscale on Azure e como ele se integra ao AKS?
Anyscale on Azure (em preview) traz o Ray gerenciado para o AKS. O Kubernetes continua cuidando do scheduling e ciclo de vida do cluster, enquanto o Ray coordena a execução distribuída dentro da workload. Ele gerencia CPUs e GPUs juntos, alocação heterogênea e fracionada de GPU, e jobs que escalam dinamicamente. A faturação é through your existing Azure agreement.
Artigo originalmente publicado em Azure Updates - Latest from Azure Charts.