2 de junho de 20266 min de leitura

Anyscale no Azure em preview público: Ray gerenciado nativo no AKS para IA distribuída

Brendan Burns

Azure

Banner - Anyscale no Azure em preview público: Ray gerenciado nativo no AKS para IA distribuída

TL;DR: A Microsoft anunciou o preview público do Anyscale no Azure, trazendo a plataforma gerenciada Ray nativamente para o AKS. O objetivo é unificar clusters multi-região, dados e identidade para treino e inferência distribuída de IA. Para empresas brasileiras que enfrentam limitação de GPUs e complexidade operacional, isso significa escalar sem reinventar a plataforma — usando o mesmo AKS e ferramentas que já conhecem.

Cover image

O que há de novo?

A carga de trabalho que define a era cloud já não é mais um web service ou um banco de dados. É um job distribuído de treino ou inferência de IA que precisa de milhares de GPUs, um data plane coerente e a capacidade de uma equipe enxuta operar tudo sem perder finais de semana. Chegar lá ainda é mais difícil do que deveria: a capacidade de GPU está fragmentada entre regiões e SKUs, dados ficam espalhados ao longo do ciclo de vida, e identidades e credenciais proliferam a cada cluster que um time adiciona.

Hoje, a Microsoft anuncia o preview público do Anyscale no Azure, que integra a plataforma gerenciada Ray da Anyscale e o Anyscale Runtime nativamente ao Azure, rodando sobre o Azure Kubernetes Service (AKS). É, na visão de Brendan Burns, o caminho mais rápido que já viu de um único notebook para um job de IA distribuído multi-região, executando nos clusters AKS que sua equipe de plataforma já opera.

Por que o Ray no Azure muda o jogo de IA?

Quando conversamos com clientes que estão escalando IA no Kubernetes, três problemas sempre aparecem:

  • Capacidade fragmentada. A oferta de GPU vive espalhada entre regiões, SKUs e quotas. Um único cluster raramente é suficiente para um treino sério.
  • Dados ilhados. Treino, fine-tuning e inferência puxam de storages diferentes, em formatos diferentes, com padrões de acesso diferentes. Essa lacuna silenciosamente desacelera cada time.
  • Operações que não escalam. Credenciais, identidade, observabilidade e caminhos de upgrade se acumulam cluster por cluster, até que a equipe de plataforma vira o gargalo.

A Anyscale e a Microsoft trabalharam juntas para resolver esses três desafios. O resultado está disponível em preview público.

“Na Anyscale, estamos construindo uma empresa em torno do Ray. O Ray é o mecanismo de computação distribuída open source para escalar workloads Python e IA. O que estamos trazendo com o Anyscale é a camada de produção: um runtime com performance aprimorada, ferramentas para desenvolvedores e operações gerenciadas para que os times possam focar em construir. E agora tudo isso é entregue de forma nativa no Azure, com prontidão empresarial no AKS.” — Robert Nishihara, Co-fundador, Anyscale

O que está disponível no preview público?

A partir de hoje, é possível provisionar e gerenciar o Anyscale no Azure diretamente do Portal do Azure ou da Azure CLI — as mesmas ferramentas que sua equipe de plataforma já usa. Do lado Azure, você tem faturamento nativo, identidade e gerenciamento do ciclo de vida dos clusters. Do lado Anyscale, seus engenheiros de ML ganham workspaces, job scheduling e o Anyscale Runtime para construir, treinar e servir modelos sem precisar costurar infraestrutura. Os benefícios se concentram em três áreas:

  • Escalabilidade de GPU: agregação elástica multi-cluster e multi-região. Um único job Ray pode consumir GPUs de onde estiverem disponíveis na sua footprint Azure, eliminando a necessidade de planejar o treino em torno dos limites de um cluster.
  • Confiabilidade em todo o ciclo de vida de IA: o Anyscale Runtime, combinado com Azure Storage, oferece um data plane unificado que cobre experimentação, treino, fine-tuning e inferência. Dados de treino, checkpoints e artefatos de inferência vivem no mesmo lugar — do dev à produção.
  • Governança e segurança: usa Microsoft Entra workload identity com gerenciamento automatizado de credenciais no control plane nativo do AKS. Sua equipe mantém o mesmo modelo operacional, RBAC, trilha de auditoria e políticas, sem criar novos sistemas de identidade para cada workload de IA.

O que os clientes já estão construindo?

Wayve logo

Wayve é uma startup de direção autônoma que treina modelos para veículos autônomos. O trabalho deles depende de agregar capacidade de GPU em uma escala que nenhuma região ou cluster consegue entregar — exatamente o que o modelo elástico multi-região do Anyscale no Azure desbloqueia.

“Wayve e Microsoft têm uma parceria profunda focada em escalar IA incorporada e a infraestrutura por trás dela. A Wayve usa Ray e, cada vez mais, Anyscale no Azure para executar pipelines de ML e dados distribuídos em grandes frotas de CPU e GPU, apoiando inferência em larga escala, análise e processamento de datasets com eficiência e resiliência aprimoradas.” — Girish Venkataramani, VP de Engenharia, Wayve AI

Xoople logo

Xoople coleta dados de observação da Terra de alta qualidade por meio de satélites e sensores, transformando-os em modelos de IA. Suas pipelines precisam escalar sob demanda sem forçar uma equipe pequena a operar o Ray manualmente — exatamente o que o modelo gerenciado do Anyscale no Azure entrega.

“Com o Anyscale no Azure, a Xoople pode executar workloads de IA massivamente distribuídas sobre imagens de satélite em escala planetária, transformando dados espectrais complexos em inteligência pronta para decisão. O Anyscale permite que nossos times foquem em modelos e resultados, em vez de infraestrutura, acelerando drasticamente o ciclo de experimentação até a implantação.” — Milos Colic, VP de Engenharia, Xoople

Construído sobre o AKS que você já opera

O Anyscale no Azure roda sobre o Azure Kubernetes Service padrão. Não há fork ou tipo de cluster especial. Ele se compõe com os recursos de IA que o AKS lançou no último ano: Dynamic Resource Allocation para GPUs, Multi-Instance GPU, NVIDIA Dynamo para inferência multi-node, KAITO para fine-tuning e RAG, e Azure Container Storage v2 para workloads de IA com estado. Se você prefere Ray open source, o KubeRay no AKS continua sendo um ótimo caminho. O Anyscale no Azure é para times que querem uma plataforma Ray gerenciada com o Anyscale Runtime, totalmente integrada aos clusters AKS e serviços Azure que já usam.

Perguntas Frequentes

  • Qual é o status do lançamento?
    Preview público, disponível hoje.

  • Preciso migrar do open-source KubeRay?
    Não. O Ray open source no AKS continua totalmente suportado. O Anyscale no Azure é para times que querem uma plataforma gerenciada com o Anyscale Runtime. Consulte a documentação para saber como embarcar seu Ray existente.

  • Como funciona o precificação?
    O preço é baseado em uso com dois componentes: infraestrutura Azure (compute e GPUs) e camada de serviço Anyscale (com base em CPU, memória e GPU). Pay-as-you-go sem compromisso inicial, com suporte Enterprise incluso.

  • Quais regiões estão disponíveis?
    O roadmap prevê expansão de cobertura de regiões, além de integração mais profunda com o stack de IA do AKS e investimentos contínuos em treino e inferência distribuída multi-região.


Artigo originalmente publicado por Brendan Burns em Azure Updates - Latest from Azure Charts.

Gostou? Compartilhe:
Precisa de ajuda?Fale com nossos especialistas 👋
Avatar Walcew - Headset