28 de janeiro de 20266 min de leitura

Bastidores da OCI: Como escalar deployments do NVIDIA GB200 NVL72 com APIs dedicadas

Harsh Verma, Sudhir Singh, Rik Kisnah

Oracle Cloud

No último ano, os avanços nos modelos de IA geraram uma demanda sem precedentes por infraestrutura de nuvem de alta performance. Para atender a esses requisitos, a Oracle Cloud Infrastructure (OCI) selecionou a arquitetura de rack NVIDIA GB200 NVL72, que integra 72 GPUs NVIDIA Blackwell através de NVLink™ de alta velocidade. Essa configuração transforma efetivamente cada rack em um único supercomputador de IA, entregando um treinamento até 4x mais rápido e uma performance de inference 30x superior.

Contudo, para empresas brasileiras que buscam competitividade global, não basta apenas ter acesso ao hardware mais recente; é necessário eficiência operacional. Os engenheiros da OCI entenderam que a automação da gestão de GPUs em escala de rack era vital para minimizar o overhead manual dos clientes. Para isso, a OCI foi pioneira ao criar um novo conjunto de APIs específicas para arquiteturas como o NVIDIA GB200 NVL72 e NVIDIA GB300 NVL72.

Com essas novas APIs, times de engenharia podem gerenciar centenas de racks GB200 NVL72 com capacidades avançadas, incluindo:

  • Resizing dinâmico.
  • Host repair sem impacto na carga de trabalho.
  • Monitoramento e manutenção de todo o rack de forma centralizada.

Neste artigo, analisaremos a API da OCI para o GB200 NVL72, explorando como ela permite desbloquear o verdadeiro poder desses racks e os desafios superados para entregar uma solução que se destaca no cenário de multi-cloud atual.

OCI e o poder real do GB200 NVL72

Nas fases de planejamento do supercluster GB200 NVL72, a OCI aceitou a mudança no design de infraestrutura de IA: o GB200 NVL72 é apenas o primeiro de uma série de rack-scale architectures. A indústria já está padronizando designs similares, o que exige uma mentalidade de FinOps e eficiência desde o dia zero.

A OCI buscou permitir a automação máxima, mantendo o pico de performance. As stacks padrão de nuvem que oferecem apenas servidores ou instâncias isoladas não atendiam às necessidades de um rack GB200 NVL72. Lançar o rack inteiro como um único supercomputador de IA de maneira otimizada exigiu engenharia criativa.

As APIs e seus workflows foram desenhados para esconder a complexidade de configurar o rack como um supercomputador único com NVLink otimizado e RDMA com NVIDIA Quantum InfiniBand ou NVIDIA Spectrum-X Ethernet com RoCE.

Visão geral da API GB200 NVL72 – Novos recursos físicos e lógicos

Para entender a API, primeiro precisamos representar o NVLink domain: um conjunto de hosts em um rack GB200 NVL72 cujas GPUs estão interconectadas. A plataforma NVL72 possui 72 GPUs Blackwell distribuídas em 18 hosts. Cada GPU no rack é conectada via NVLink Switch, um acelerador especializado que realiza switching all-to-all a 1.8 TB/sec.

O NVLink domain é a rede de scale-up dentro do rack, enquanto InfiniBand ou RoCE RDMA é a rede de scale-out entre racks.

O recurso físico ComputeGpuMemoryFabric representa essa infraestrutura física (o rack e seus 18 hosts). Para utilizá-lo, o cliente cria um ComputeGpuMemoryCluster, um recurso lógico. A criação deste cluster resulta no lançamento de instâncias no fabric subjacente. Uma partição é criada para autorizar as GPUs a se comunicarem via NVLink, enquanto as instâncias são simultaneamente adicionadas à partição InfiniBand para scale-out.

NVIDIA GB200 NVL72 rack physical and logical resources.

Principais recursos e capacidades

Abaixo, destacamos as vantagens estratégicas para gestores de TI e arquitetos de infraestrutura:

  1. Provisionamento Simplificado: Lançar um rack NVL72 exige configurações precisas em cada host e switch. As APIs da OCI reduzem essa complexidade a uma única chamada de API.
  2. Gestão em Larga Escala: Workflows automatizados para gestão de capacidade e manutenção em nível de rack ou host em regiões inteiras.
  3. Redução do Impacto de Falhas: GPUs falham com mais frequência que CPUs. Esta API permite remover hosts individuais para reparo sem derrubar o job que está rodando no restante do rack.
  1. Workload Placement Aware de Topologia: A API de metadata fornece detalhes da topologia NVLink e RDMA para que o scheduler coloque a carga de trabalho no local de menor latency e maior throughput.
  2. Infraestrutura como Código (IaC): Suporte total a Terraform para gestão declarativa.
  3. Observabilidade: Visão clara do status de saúde e topologia de toda a frota de GB200.

Deep Dive Técnico: Benefícios de Design

A OCI opera essas soluções como cloud services nativos, mantendo processos de monitoramento contínuo para detectar divergências entre o estado desejado e o real. Isso remove a carga do cliente de gerenciar a limpeza de recursos após falhas operacionais.

Reparo em Nível de Nó e Rack com "Voz do Cliente"

A OCI permite que o cliente designe um host ou o rack inteiro como defeituoso (grey failure), mesmo que o monitoramento automático ainda não tenha detectado o erro. O workflow de reparo é integrado ao Validation Suite da OCI para identificar a causa raiz.

O NVL72 é único: a falha de um único host (compute tray) pode degradar a capacidade vertical de todo o rack. A OCI desenhou as APIs para permitir que o job continue no restante do rack enquanto um tray é removido para manutenção.

Monitoramento Abrangente do Fabric

A solução de observabilidade coleta telemetria de baixo nível dos NVIDIA NVLink Switches, incluindo status de portas, contadores de erro, temperatura e consumo de energia. Dados de alta granulidade são processados via plataformas de event streaming para gerar insights acionáveis.

Compatibilidade de Firmware

Um rack GB200 exige que hosts, GPUs e switches rodem versões de firmware compatíveis. A OCI força a consistência de versões em todos os componentes e, em breve, oferecerá gestão de firmware self-service para maior flexibilidade.

Revolucionando o Teste: Da Validação de Componente para a Escala de Rack

O teste tradicional de GPU validava componentes isolados. Para o GB200, a OCI mudou o paradigma: agora valida-se o rack inteiro como um sistema de supercomputação unificado.

  • Validação End-to-End: Conexões GPU-to-GPU são testadas simultaneamente via NVLink Switch.
  • Teste de Coerência de Memória Unificada: O espaço de memória do rack é validado como uma entidade única.
  • Simulação de Real-World Workloads: Execução de treinamentos de IA reais em vez de testes sintéticos antes da entrega ao cliente.

Capacidade de Energia e Liquid Cooling no Data Center

O deployment do GB200 em escala traz desafios térmicos. Cada rack pode consumir mais de 120 kW.

NVIDIA GB200 NVL72 Rack

O resfriamento a ar não é mais viável. A OCI adotou o liquid cooling direct-to-chip para todos os sistemas GB200, cobrindo CPUs, GPUs e switches. Os benefícios incluem:

  • Menor PUE (Power Usage Effectiveness).
  • Maior densidade computacional por metro quadrado.
  • Redução de riscos de throttling térmico.

Conclusão

As novas APIs da OCI para supercomputação de IA permitem que a empresa se destaque ao oferecer automação máxima para deployments de larga escala sem sacrificar a performance. Para empresas brasileiras, isso significa a possibilidade de escalar aplicações de IA generativa e HPC com menos esforço manual e maior previsibilidade operacional.


Artigo originalmente publicado em cloud-infrastructure.

Gostou? Compartilhe:
Precisa de ajuda?Fale com nossos especialistas 👋
Avatar Walcew - Headset