No último ano, os avanços nos modelos de IA geraram uma demanda sem precedentes por infraestrutura de nuvem de alta performance. Para atender a esses requisitos, a Oracle Cloud Infrastructure (OCI) selecionou a arquitetura de rack NVIDIA GB200 NVL72, que integra 72 GPUs NVIDIA Blackwell através de NVLink™ de alta velocidade. Essa configuração transforma efetivamente cada rack em um único supercomputador de IA, entregando um treinamento até 4x mais rápido e uma performance de inference 30x superior.
Contudo, para empresas brasileiras que buscam competitividade global, não basta apenas ter acesso ao hardware mais recente; é necessário eficiência operacional. Os engenheiros da OCI entenderam que a automação da gestão de GPUs em escala de rack era vital para minimizar o overhead manual dos clientes. Para isso, a OCI foi pioneira ao criar um novo conjunto de APIs específicas para arquiteturas como o NVIDIA GB200 NVL72 e NVIDIA GB300 NVL72.
Com essas novas APIs, times de engenharia podem gerenciar centenas de racks GB200 NVL72 com capacidades avançadas, incluindo:
- Resizing dinâmico.
- Host repair sem impacto na carga de trabalho.
- Monitoramento e manutenção de todo o rack de forma centralizada.
Neste artigo, analisaremos a API da OCI para o GB200 NVL72, explorando como ela permite desbloquear o verdadeiro poder desses racks e os desafios superados para entregar uma solução que se destaca no cenário de multi-cloud atual.
OCI e o poder real do GB200 NVL72
Nas fases de planejamento do supercluster GB200 NVL72, a OCI aceitou a mudança no design de infraestrutura de IA: o GB200 NVL72 é apenas o primeiro de uma série de rack-scale architectures. A indústria já está padronizando designs similares, o que exige uma mentalidade de FinOps e eficiência desde o dia zero.
A OCI buscou permitir a automação máxima, mantendo o pico de performance. As stacks padrão de nuvem que oferecem apenas servidores ou instâncias isoladas não atendiam às necessidades de um rack GB200 NVL72. Lançar o rack inteiro como um único supercomputador de IA de maneira otimizada exigiu engenharia criativa.
As APIs e seus workflows foram desenhados para esconder a complexidade de configurar o rack como um supercomputador único com NVLink otimizado e RDMA com NVIDIA Quantum InfiniBand ou NVIDIA Spectrum-X Ethernet com RoCE.
Visão geral da API GB200 NVL72 – Novos recursos físicos e lógicos
Para entender a API, primeiro precisamos representar o NVLink domain: um conjunto de hosts em um rack GB200 NVL72 cujas GPUs estão interconectadas. A plataforma NVL72 possui 72 GPUs Blackwell distribuídas em 18 hosts. Cada GPU no rack é conectada via NVLink Switch, um acelerador especializado que realiza switching all-to-all a 1.8 TB/sec.
O NVLink domain é a rede de scale-up dentro do rack, enquanto InfiniBand ou RoCE RDMA é a rede de scale-out entre racks.
O recurso físico ComputeGpuMemoryFabric representa essa infraestrutura física (o rack e seus 18 hosts). Para utilizá-lo, o cliente cria um ComputeGpuMemoryCluster, um recurso lógico. A criação deste cluster resulta no lançamento de instâncias no fabric subjacente. Uma partição é criada para autorizar as GPUs a se comunicarem via NVLink, enquanto as instâncias são simultaneamente adicionadas à partição InfiniBand para scale-out.
Principais recursos e capacidades
Abaixo, destacamos as vantagens estratégicas para gestores de TI e arquitetos de infraestrutura:
- Provisionamento Simplificado: Lançar um rack NVL72 exige configurações precisas em cada host e switch. As APIs da OCI reduzem essa complexidade a uma única chamada de API.
- Gestão em Larga Escala: Workflows automatizados para gestão de capacidade e manutenção em nível de rack ou host em regiões inteiras.
- Redução do Impacto de Falhas: GPUs falham com mais frequência que CPUs. Esta API permite remover hosts individuais para reparo sem derrubar o job que está rodando no restante do rack.
- Workload Placement Aware de Topologia: A API de metadata fornece detalhes da topologia NVLink e RDMA para que o scheduler coloque a carga de trabalho no local de menor latency e maior throughput.
- Infraestrutura como Código (IaC): Suporte total a Terraform para gestão declarativa.
- Observabilidade: Visão clara do status de saúde e topologia de toda a frota de GB200.
Deep Dive Técnico: Benefícios de Design
Suporte a Control Planes InfiniBand e NVLink na Nuvem
A OCI opera essas soluções como cloud services nativos, mantendo processos de monitoramento contínuo para detectar divergências entre o estado desejado e o real. Isso remove a carga do cliente de gerenciar a limpeza de recursos após falhas operacionais.
Reparo em Nível de Nó e Rack com "Voz do Cliente"
A OCI permite que o cliente designe um host ou o rack inteiro como defeituoso (grey failure), mesmo que o monitoramento automático ainda não tenha detectado o erro. O workflow de reparo é integrado ao Validation Suite da OCI para identificar a causa raiz.
O NVL72 é único: a falha de um único host (compute tray) pode degradar a capacidade vertical de todo o rack. A OCI desenhou as APIs para permitir que o job continue no restante do rack enquanto um tray é removido para manutenção.
Monitoramento Abrangente do Fabric
A solução de observabilidade coleta telemetria de baixo nível dos NVIDIA NVLink Switches, incluindo status de portas, contadores de erro, temperatura e consumo de energia. Dados de alta granulidade são processados via plataformas de event streaming para gerar insights acionáveis.
Compatibilidade de Firmware
Um rack GB200 exige que hosts, GPUs e switches rodem versões de firmware compatíveis. A OCI força a consistência de versões em todos os componentes e, em breve, oferecerá gestão de firmware self-service para maior flexibilidade.
Revolucionando o Teste: Da Validação de Componente para a Escala de Rack
O teste tradicional de GPU validava componentes isolados. Para o GB200, a OCI mudou o paradigma: agora valida-se o rack inteiro como um sistema de supercomputação unificado.
- Validação End-to-End: Conexões GPU-to-GPU são testadas simultaneamente via NVLink Switch.
- Teste de Coerência de Memória Unificada: O espaço de memória do rack é validado como uma entidade única.
- Simulação de Real-World Workloads: Execução de treinamentos de IA reais em vez de testes sintéticos antes da entrega ao cliente.
Capacidade de Energia e Liquid Cooling no Data Center
O deployment do GB200 em escala traz desafios térmicos. Cada rack pode consumir mais de 120 kW.
O resfriamento a ar não é mais viável. A OCI adotou o liquid cooling direct-to-chip para todos os sistemas GB200, cobrindo CPUs, GPUs e switches. Os benefícios incluem:
- Menor PUE (Power Usage Effectiveness).
- Maior densidade computacional por metro quadrado.
- Redução de riscos de throttling térmico.
Conclusão
As novas APIs da OCI para supercomputação de IA permitem que a empresa se destaque ao oferecer automação máxima para deployments de larga escala sem sacrificar a performance. Para empresas brasileiras, isso significa a possibilidade de escalar aplicações de IA generativa e HPC com menos esforço manual e maior previsibilidade operacional.
Artigo originalmente publicado em cloud-infrastructure.