Preview do Guest RDMA no Azure Boost: rede de altíssima performance para VMs
TL;DR: O artigo analisa a preview do Guest RDMA no Azure Boost, que permite comunicação de altíssimo throughput (até 100Gb/s) e ultra-baixa latência entre VMs dentro da mesma região, com kernel bypass e offload de protocolo para a NIC. Para empresas brasileiras, isso abre oportunidades em AI/ML, HPC, storage distribuído e bancos de dados, reduzindo overhead de CPU. Contudo, o preview tem limitações importantes como incompatibilidade com load balancers, Private Endpoints e UDRs, que devem ser consideradas antes de adotar.
A Microsoft anunciou o Guest RDMA em preview no Azure, começando pela região UK South. Essa tecnologia permite que máquinas virtuais guest se comuniquem com altíssima taxa de transferência e latência ultrabaixa dentro da mesma região, usando o Azure Boost para habilitar RDMA diretamente no sistema operacional convidado. Na prática, as aplicações bypassam o stack de rede tradicional (TCP/IP) e offloadam o transporte para a NIC, reduzindo drasticamente o overhead de CPU e liberando recursos para o workload.
O que é RDMA e por que isso importa para empresas brasileiras?
RDMA (Remote Direct Memory Access) permite que uma máquina acesse diretamente a memória de outra sem envolver a CPU ou o kernel do SO. Em vez de passar pelo stack TCP/IP, a movimentação de dados é offloadada para a placa de rede (NIC). O Azure já utiliza RDMA extensivamente na camada de infraestrutura para storage e em redes backend para IA e HPC. Agora, com a extensão do suporte a RDMA para VMs guest na rede frontend, qualquer workload dentro de uma VNET pode se beneficiar — incluindo comunicação entre Availability Zones.
Quais os principais benefícios do Guest RDMA?
- Kernel bypass e baixa latência: transfers evitam o stack de rede do SO, eliminando context switches e cópias, reduzindo latência e jitter.
- Altíssimo throughput: transporte baseado em hardware oferece até 100Gb/s por conexão única, dependendo do SKU da VM.
- Baixo uso de CPU: overhead do TCP/IP é eliminado, pois a movimentação de dados é feita pelo hardware.
Em quais cenários o Guest RDMA faz diferença?
AI/ML training e inference – Suporte a GPU Direct RDMA permite movimentação direta de dados entre GPUs de diferentes VMs com mínima participação da CPU. Isso é útil para treinamento distribuído entre GPUs que não compartilham uma rede backend única, para desagregar GPUs em inferência, carregar KV Caches armazenados e outras partes de workloads de IA, melhorando throughput e latência.
Sistemas de storage distribuído e bancos de dados – O Azure Boost suporta tanto RDMA em modo kernel (NFS, SMB) quanto em modo usuário (memória compartilhada e bancos de dados), entregando alto throughput e baixa utilização de CPU. Um ponto-chave é que o Guest RDMA permite comunicação entre sistemas distribuídos em múltiplas Availability Zones dentro da mesma região.
High Performance Computing (HPC) – Comunicação VM a VM com baixa latência e alta banda é crítica para aplicações HPC fortemente acopladas e workloads MPI.
Como habilitar o Guest RDMA nas VMs?
Para habilitar o Guest RDMA, crie VMs seguindo estas orientações:
- O Guest RDMA suporta conexões RDMA entre VMs em uma VNET que se comunicam diretamente entre si, dentro da mesma região. O preview está disponível na região UK South.
- Distribuição Linux recomendada: Ubuntu 24.04 LTS
- Pacotes user-space necessários: >= rdma-core (50.0-2ubuntu0.2)
- Kernel suportado: >= 6.8.0-1044-azure; recomenda-se 6.17 se disponível
Quais são as VMs suportadas?
D-series: Dlsv6, Dldsv6, Dsv6, Ddsv6
| Intel Dlsv6 | Intel Dldsv6 | Intel Dsv6 | Intel Ddsv6 |
|---|---|---|---|
| Standard_D64ls_v6 | Standard_D64lds_v6 | Standard_D64s_v6 | Standard_D64ds_v6 |
| Standard_D96ls_v6 | Standard_D96lds_v6 | Standard_D96s_v6 | Standard_D96ds_v6 |
| Standard_D128ls_v6 | Standard_D128lds_v6 | Standard_D128s_v6 | Standard_D128ds_v6 |
| — | — | Standard_D192s_v6 | Standard_D192ds_v6 |
E-series e L-series: Esv6, Edsv6, Lsv4
| Intel Esv6 | Intel Edsv6 | Intel L v4 |
|---|---|---|
| Standard_E64s_v6 | Standard_E64ds_v6 | Standard_L64s_v4 |
| Standard_E96s_v6 | Standard_E96ds_v6 | Standard_L80s_v4 |
| Standard_E128s_v6 | Standard_E128ds_v6 | Standard_L96s_v4 |
| Standard_E192is_v6 | Standard_E192ids_v6 | — |
Network Optimized: Dnlsv6, Dnldsv6, Dnsv6, Dndsv6, Ensv6, Endsv6 (Public Preview)
| Intel Dnlsv6 | Intel Dnldsv6 | Intel Dnsv6 | Intel Dndsv6 |
|---|---|---|---|
| Standard_D64nls_v6 | Standard_D64nlds_v6 | Standard_D64ns_v6 | Standard_D64nds_v6 |
| Standard_D96nls_v6 | Standard_D96nlds_v6 | Standard_D96ns_v6 | Standard_D96nds_v6 |
| Standard_D128nls_v6 | Standard_D128nlds_v6 | Standard_D128ns_v6 | Standard_D128nds_v6 |
| Intel Ensv6 | Intel Endsv6 |
|---|---|
| Standard_E64ns_v6 | Standard_E64nds_v6 |
| Standard_E96ns_v6 | Standard_E96nds_v6 |
| Standard_E128ns_v6 | Standard_E128nds_v6 |
Remote Storage Optimized: Ebsv6, Ebdsv6 (Public Preview)
| Intel Ensv6 | Intel Endsv6 |
|---|---|
| Standard_E64bs_v6 | Standard_E64bds_v6 |
| Standard_E96bs_v6 | Standard_E96bds_v6 |
| Standard_E128bs_v6 | Standard_E128bds_v6 |
| Standard_E192ibs_v6 | Standard_E192ibds_v6 |
FX: FXmsv2, FXmdsv2
| Intel FXmsv2 | Intel FXmdsv2 |
|---|---|
| Standard_FX64ms_v2 | Standard_FX64mds_v2 |
| Standard_FX96ms_v2 | Standard_FX96mds_v2 |
Quais são as limitações do preview?
O preview está limitado a habilitar fluxos RDMA entre VMs que se comunicam diretamente dentro de uma VNET. Workloads que exigem RDMA atravessando os seguintes cenários não são suportados no preview:
- Load balancers
- Private Endpoints
- VNET Encryption
- Virtual Network Flow Logging
- User Defined Routes (UDRs)
- IP forwarding
Esses recursos e topologias estão planejados para estar disponíveis com RDMA na Disponibilidade Geral (GA).
Como participar do preview?
Para se inscrever no preview, acesse: aka.ms/guestRDMAPreviewSignUp. Feedbacks podem ser enviados para [email protected].
Perguntas Frequentes
-
Quais regiões estão disponíveis no preview do Guest RDMA?
Atualmente, o preview está disponível apenas na região UK South. A Microsoft planeja expandir para mais regiões antes da disponibilidade geral (GA). -
Preciso de uma distribuição Linux específica para habilitar o Guest RDMA?
Sim. A distribuição recomendada é Ubuntu 24.04 LTS, com pacotes rdma-core >= 50.0-2ubuntu0.2 e kernel >= 6.8.0-1044-azure (recomendado 6.17). -
O Guest RDMA funciona com Load Balancers ou Private Endpoints?
Não no preview. As limitações incluem incompatibilidade com load balancers, Private Endpoints, VNET Encryption, Virtual Network Flow Logging, UDRs e IP forwarding. Esses recursos serão adicionados na GA. -
Posso usar Guest RDMA em VMs Windows?
O anúncio do preview especifica apenas distribuições Linux suportadas (Ubuntu 24.04 LTS). Não há menção a suporte para Windows neste momento. Recomenda-se acompanhar as atualizações da Microsoft. -
Quais famílias de VM são compatíveis com Guest RDMA?
As séries Dlsv6, Dldsv6, Dsv6, Ddsv6, Esv6, Edsv6, Lsv4, além das variantes Network Optimized (Dnlsv6, Dnldsv6, etc.), Remote Storage Optimized (Ebsv6, Ebdsv6) e FX (FXmsv2, FXmdsv2) são suportadas. Consulte a tabela completa no artigo.
Artigo originalmente publicado em Azure Updates - Latest from Azure Charts.