8 de maio de 20264 min de leitura

Redes para IA em Escala: Analisando o Oracle Acceleron e o Multipath Reliable Connection

(autor não identificado)

Oracle Cloud

Este artigo analisa a arquitetura Oracle Acceleron e o protocolo Multipath Reliable Connection (MRC) como soluções para as limitações tradicionais de latência e utilização em redes de IA. A conclusão principal é que, ao mover a inteligência de roteamento da rede para o endpoint (NIC) usando SRv6, a Oracle consegue eliminar o congestionamento de links e gargalos de processamento, permitindo que clusters de GPUs operem com escalabilidade próxima ao limite físico do hardware.

O gargalo das redes de IA tradicionais

Grandes clusters de IA são regidos por uma restrição lógica: a performance global de um job sincronizado é ditada pelo seu caminho de rede mais lento. Em ambientes com milhares de GPUs, colisões de fluxo, falhas de caminho ou latência acumulada (tail latency) costumam limitar a utilização do fabric de rede a cerca de 60%. O roteamento ECMP convencional fixa fluxos em caminhos específicos sem inteligência sobre a demanda, o que frequentemente causa gargalos desnecessários.

O que é a arquitetura Oracle Acceleron?

A arquitetura de rede Multiplanar da Oracle inverte a lógica de controle. Em vez da rede tentar adivinhar a melhor rota para o balanceamento de carga, a OCI transfere essa inteligência para a NIC (Network Interface Card). Com o estado sendo movido do hardware de rede para os pacotes, as NICs tornam-se capazes de responder dinamicamente ao congestionamento, garantindo uma utilização próxima ao limite teórico da largura de banda.

Oracle’s Multiplanar Network

Arquitetura Multiplanar: Escalabilidade e Isolamento

A abordagem da Oracle utiliza múltiplos planos de rede independentes. Cada plano funciona como um Clos fabric isolado, possuindo seu próprio comportamento de controle. Uma NIC de 800G, por exemplo, é dividida em links de 200G balanceados entre esses planos. Se ocorrer uma falha em um plano, o tráfego é prontamente redirecionado, mantendo a estabilidade da operação.

Contrutores inteligentes na borda

Ao contrário das redes que dependem de roteamento hop-by-hop, o Acceleron utiliza SRv6 (Segment Routing over IPv6). O plano de controle centralizado calcula caminhos diversos entre pares de NICs e distribui listas de segmentos para os hosts. A NIC, por sua vez, monitora a integridade do caminho em tempo real. Se uma rota falha, a transição para um caminho alternativo ocorre instantaneamente, sem a necessidade de reconvergência lenta nos switches.

Two-tier Multiplanar Topology

A tecnologia MRC (Multipath Reliable Connection) é o motor de transporte que habilita esse modelo para fluxos RDMA de alto desempenho. Ao permitir que uma única conexão (QP - Queue Pair) utilize múltiplos caminhos físicos, o MRC trata o reordenamento de pacotes na própria NIC, entregando um throughput superior e eliminando os efeitos do congestionamento de cauda.

Conclusão para gestores de tecnologia

A transição para arquiteturas que descentralizam o controle de rede para a borda (endpoint) torna-se obrigatória para empresas brasileiras que estão escalando clusters para LLMs ou processamento paralelo massivo. A combinação de Multiplanar fabric com MRC transforma redes de datacenter de um recurso passivo em um componente de software-defined altamente resiliente e responsivo.

Perguntas Frequentes

  • O que torna o Oracle Acceleron diferente do roteamento ECMP tradicional?
    O Acceleron utiliza roteamento baseado na origem (SRv6) com controle delegado à NIC. Isso permite desviar o tráfego de links congestionados ou instáveis instantaneamente, sem depender da reconvergência do plano de controle centralizado.

  • Como o Multipath Reliable Connection (MRC) impacta a performance de RDMA?
    O MRC permite que conexões de RDMA utilizem múltiplos caminhos físicos simultaneamente através de pacotes pulverizados (packet spraying). Isso garante throughput elevado e baixa latência de cauda, mesmo em cenários de alta carga onde o reordenamento de pacotes é necessário.

  • Esta tecnologia é restrita apenas aos serviços gerenciados da nuvem Oracle?
    Embora o Acceleron e o MRC sejam nativos da infraestrutura OCI AI, o ecossistema foi desenvolvido em colaboração com gigantes como NVIDIA, Intel, AMD e OpenAI, visando uma arquitetura aberta que permite a clientes estratégicos customizar implementações de firmware e software de controle.


Artigo originalmente publicado em cloud-infrastructure.

Gostou? Compartilhe:
Precisa de ajuda?Fale com nossos especialistas 👋
Avatar Walcew - Headset