2 de junho de 20266 min de leitura

Guest RDMA no Azure Boost: o que muda para cargas de trabalho de alta performance na nuvem

Banner - Guest RDMA no Azure Boost: o que muda para cargas de trabalho de alta performance na nuvem

Preview do Guest RDMA no Azure Boost: rede de altíssima performance para VMs

TL;DR: O artigo analisa a preview do Guest RDMA no Azure Boost, que permite comunicação de altíssimo throughput (até 100Gb/s) e ultra-baixa latência entre VMs dentro da mesma região, com kernel bypass e offload de protocolo para a NIC. Para empresas brasileiras, isso abre oportunidades em AI/ML, HPC, storage distribuído e bancos de dados, reduzindo overhead de CPU. Contudo, o preview tem limitações importantes como incompatibilidade com load balancers, Private Endpoints e UDRs, que devem ser consideradas antes de adotar.

A Microsoft anunciou o Guest RDMA em preview no Azure, começando pela região UK South. Essa tecnologia permite que máquinas virtuais guest se comuniquem com altíssima taxa de transferência e latência ultrabaixa dentro da mesma região, usando o Azure Boost para habilitar RDMA diretamente no sistema operacional convidado. Na prática, as aplicações bypassam o stack de rede tradicional (TCP/IP) e offloadam o transporte para a NIC, reduzindo drasticamente o overhead de CPU e liberando recursos para o workload.

O que é RDMA e por que isso importa para empresas brasileiras?

RDMA (Remote Direct Memory Access) permite que uma máquina acesse diretamente a memória de outra sem envolver a CPU ou o kernel do SO. Em vez de passar pelo stack TCP/IP, a movimentação de dados é offloadada para a placa de rede (NIC). O Azure já utiliza RDMA extensivamente na camada de infraestrutura para storage e em redes backend para IA e HPC. Agora, com a extensão do suporte a RDMA para VMs guest na rede frontend, qualquer workload dentro de uma VNET pode se beneficiar — incluindo comunicação entre Availability Zones.

Diagrama RDMA

Quais os principais benefícios do Guest RDMA?

  • Kernel bypass e baixa latência: transfers evitam o stack de rede do SO, eliminando context switches e cópias, reduzindo latência e jitter.
  • Altíssimo throughput: transporte baseado em hardware oferece até 100Gb/s por conexão única, dependendo do SKU da VM.
  • Baixo uso de CPU: overhead do TCP/IP é eliminado, pois a movimentação de dados é feita pelo hardware.

Em quais cenários o Guest RDMA faz diferença?

AI/ML training e inference – Suporte a GPU Direct RDMA permite movimentação direta de dados entre GPUs de diferentes VMs com mínima participação da CPU. Isso é útil para treinamento distribuído entre GPUs que não compartilham uma rede backend única, para desagregar GPUs em inferência, carregar KV Caches armazenados e outras partes de workloads de IA, melhorando throughput e latência.

Sistemas de storage distribuído e bancos de dados – O Azure Boost suporta tanto RDMA em modo kernel (NFS, SMB) quanto em modo usuário (memória compartilhada e bancos de dados), entregando alto throughput e baixa utilização de CPU. Um ponto-chave é que o Guest RDMA permite comunicação entre sistemas distribuídos em múltiplas Availability Zones dentro da mesma região.

High Performance Computing (HPC) – Comunicação VM a VM com baixa latência e alta banda é crítica para aplicações HPC fortemente acopladas e workloads MPI.

Como habilitar o Guest RDMA nas VMs?

Para habilitar o Guest RDMA, crie VMs seguindo estas orientações:

  • O Guest RDMA suporta conexões RDMA entre VMs em uma VNET que se comunicam diretamente entre si, dentro da mesma região. O preview está disponível na região UK South.
  • Distribuição Linux recomendada: Ubuntu 24.04 LTS
  • Pacotes user-space necessários: >= rdma-core (50.0-2ubuntu0.2)
  • Kernel suportado: >= 6.8.0-1044-azure; recomenda-se 6.17 se disponível

Quais são as VMs suportadas?

D-series: Dlsv6, Dldsv6, Dsv6, Ddsv6

Intel Dlsv6 Intel Dldsv6 Intel Dsv6 Intel Ddsv6
Standard_D64ls_v6 Standard_D64lds_v6 Standard_D64s_v6 Standard_D64ds_v6
Standard_D96ls_v6 Standard_D96lds_v6 Standard_D96s_v6 Standard_D96ds_v6
Standard_D128ls_v6 Standard_D128lds_v6 Standard_D128s_v6 Standard_D128ds_v6
Standard_D192s_v6 Standard_D192ds_v6

E-series e L-series: Esv6, Edsv6, Lsv4

Intel Esv6 Intel Edsv6 Intel L v4
Standard_E64s_v6 Standard_E64ds_v6 Standard_L64s_v4
Standard_E96s_v6 Standard_E96ds_v6 Standard_L80s_v4
Standard_E128s_v6 Standard_E128ds_v6 Standard_L96s_v4
Standard_E192is_v6 Standard_E192ids_v6

Network Optimized: Dnlsv6, Dnldsv6, Dnsv6, Dndsv6, Ensv6, Endsv6 (Public Preview)

Intel Dnlsv6 Intel Dnldsv6 Intel Dnsv6 Intel Dndsv6
Standard_D64nls_v6 Standard_D64nlds_v6 Standard_D64ns_v6 Standard_D64nds_v6
Standard_D96nls_v6 Standard_D96nlds_v6 Standard_D96ns_v6 Standard_D96nds_v6
Standard_D128nls_v6 Standard_D128nlds_v6 Standard_D128ns_v6 Standard_D128nds_v6
Intel Ensv6 Intel Endsv6
Standard_E64ns_v6 Standard_E64nds_v6
Standard_E96ns_v6 Standard_E96nds_v6
Standard_E128ns_v6 Standard_E128nds_v6

Remote Storage Optimized: Ebsv6, Ebdsv6 (Public Preview)

Intel Ensv6 Intel Endsv6
Standard_E64bs_v6 Standard_E64bds_v6
Standard_E96bs_v6 Standard_E96bds_v6
Standard_E128bs_v6 Standard_E128bds_v6
Standard_E192ibs_v6 Standard_E192ibds_v6

FX: FXmsv2, FXmdsv2

Intel FXmsv2 Intel FXmdsv2
Standard_FX64ms_v2 Standard_FX64mds_v2
Standard_FX96ms_v2 Standard_FX96mds_v2

Quais são as limitações do preview?

O preview está limitado a habilitar fluxos RDMA entre VMs que se comunicam diretamente dentro de uma VNET. Workloads que exigem RDMA atravessando os seguintes cenários não são suportados no preview:

  • Load balancers
  • Private Endpoints
  • VNET Encryption
  • Virtual Network Flow Logging
  • User Defined Routes (UDRs)
  • IP forwarding

Esses recursos e topologias estão planejados para estar disponíveis com RDMA na Disponibilidade Geral (GA).

Como participar do preview?

Para se inscrever no preview, acesse: aka.ms/guestRDMAPreviewSignUp. Feedbacks podem ser enviados para [email protected].

Perguntas Frequentes

  • Quais regiões estão disponíveis no preview do Guest RDMA?
    Atualmente, o preview está disponível apenas na região UK South. A Microsoft planeja expandir para mais regiões antes da disponibilidade geral (GA).

  • Preciso de uma distribuição Linux específica para habilitar o Guest RDMA?
    Sim. A distribuição recomendada é Ubuntu 24.04 LTS, com pacotes rdma-core >= 50.0-2ubuntu0.2 e kernel >= 6.8.0-1044-azure (recomendado 6.17).

  • O Guest RDMA funciona com Load Balancers ou Private Endpoints?
    Não no preview. As limitações incluem incompatibilidade com load balancers, Private Endpoints, VNET Encryption, Virtual Network Flow Logging, UDRs e IP forwarding. Esses recursos serão adicionados na GA.

  • Posso usar Guest RDMA em VMs Windows?
    O anúncio do preview especifica apenas distribuições Linux suportadas (Ubuntu 24.04 LTS). Não há menção a suporte para Windows neste momento. Recomenda-se acompanhar as atualizações da Microsoft.

  • Quais famílias de VM são compatíveis com Guest RDMA?
    As séries Dlsv6, Dldsv6, Dsv6, Ddsv6, Esv6, Edsv6, Lsv4, além das variantes Network Optimized (Dnlsv6, Dnldsv6, etc.), Remote Storage Optimized (Ebsv6, Ebdsv6) e FX (FXmsv2, FXmdsv2) são suportadas. Consulte a tabela completa no artigo.


Artigo originalmente publicado em Azure Updates - Latest from Azure Charts.

Gostou? Compartilhe:
Precisa de ajuda?Fale com nossos especialistas 👋
Avatar Walcew - Headset