AWS anuncia EC2 G7 com NVIDIA RTX PRO 4500 Blackwell: o que muda para inferência de IA e gráficos no Brasil
TL;DR: A AWS lançou as instâncias EC2 G7 com GPUs NVIDIA RTX PRO 4500 Blackwell, oferecendo até 4,6x mais performance em inferência de IA e 2,1x em gráficos comparado às G6. Com 32 GB de memória por GPU, 700 Gbps de rede EFA e suporte a NVMe SSD local, as G7 são ideais para workloads de AI inference, renderização, VDI e análise de dados. No entanto, a disponibilidade inicial é limitada a duas regiões dos EUA, o que deve ser considerado por empresas brasileiras que dependem de baixa latência.
A AWS acaba de disponibilizar globalmente as instâncias Amazon EC2 G7, equipadas com as novas GPUs NVIDIA RTX PRO 4500 Blackwell Server Edition. Este lançamento posiciona a AWS como o primeiro grande provedor de nuvem a oferecer essa GPU em sua frota, e os números de performance chamam a atenção: até 4,6x mais performance em inferência de IA e 2,1x em gráficos quando comparado à geração anterior (G6).
Para times de engenharia e gestores de TI no Brasil, a pergunta não é apenas “o que essa instância faz?”, mas “como isso impacta meus custos, minha latência e minha arquitetura?”. Vamos analisar.
Por que as G7 importam para empresas brasileiras?
O salto de performance é significativo, especialmente para workloads que combinam inferência de modelos de linguagem (LLMs), renderização gráfica e processamento de dados em tempo real. As G7 utilizam processadores Intel Xeon Scalable de sexta geração customizados, combinados com GPUs que trazem:
- 32 GB de GPU memory por GPU (1,33x mais que as G6)
- 2,45x mais largura de banda de memória GPU
- 5ª geração de Tensor Cores e 4ª geração de RT Cores
- 700 Gbps de rede EFA (7x mais que G6)
- Até 7,6 TB de armazenamento NVMe SSD local
Essas especificações têm consequências práticas. Se você trabalha com AI inference para chatbots, recomendação ou visão computacional, o ganho de 4,6x pode reduzir significativamente o tempo de resposta e o número de instâncias necessárias para sustentar o throughput. Para VDI (Virtual Desktop Infrastructure), o ganho de 2,1x em gráficos significa melhor experiência do usuário final com menos recursos.
Como a disponibilidade regional afeta o planejamento?
Aqui está o ponto de atenção. As instâncias G7 estão disponíveis, por enquanto, apenas em duas regiões: US East (Ohio) e US West (Oregon). Para empresas brasileiras que operam com workloads sensíveis à latência, isso pode ser um limitador. A AWS não informou previsão de expansão para a região South America (São Paulo).
Em cenários de inferência de IA em tempo real, cada milissegundo conta. Uma distância geográfica maior entre a instância e o usuário final no Brasil pode anular parte do ganho de performance bruto. Para workloads não críticos de latência — como treinamento de modelos ou processamento em lote — a distância é menos relevante.
Tabela de especificações das instâncias G7
| Instance name | GPUs | GPU memory (GB) | vCPUs | Memory (GiB) | Storage | EBS bandwidth (Gbps) | Network bandwidth (Gbps) |
|---|---|---|---|---|---|---|---|
| g7.2xlarge | 1 | 32 | 8 | 32 | 1 x 600 | Up to 8 | Up to 60 |
| g7.4xlarge | 1 | 32 | 16 | 64 | 1 x 600 | 8 | Up to 100 |
| g7.8xlarge | 1 | 32 | 32 | 128 | 1 x 950 | 16 | Up to 100 |
| g7.12xlarge | 2 | 64 | 48 | 192 | 1 x 1900 | 20 | 175 |
| g7.24xlarge | 4 | 128 | 96 | 384 | 1 x 3800 | 40 | 350 |
| g7.48xlarge | 8 | 256 | 192 | 768 | 2 x 3800 | 80 | 700 |
| g7.metal* | 8 | 256 | 192 | 768 | 2 x 3800 | 80 | 700 |
- Instância metal disponível em breve.
O que mais muda além da GPU?
Além do salto de GPU, as G7 trazem melhorias importantes em rede e armazenamento:
- 700 Gbps de EFA: A rede elástica permite comunicação de baixa latência entre GPUs, essencial para workloads multi-GPU e multi-node. O suporte a GPUDirect RDMA com EFA e com Amazon FSx for Lustre acelera ainda mais a troca de dados.
- Até 7,6 TB de NVMe SSD local: Manter modelos e datasets próximos ao compute reduz a sobrecarga de transferência de dados e melhora o throughput.
- Codificação de vídeo avançada: Os novos motores NVENC (nona geração) e NVDEC (sexta geração) suportam encoding 4:2:2 e entregam 1,5x mais streams de vídeo simultâneos em relação às G6.
Para quais workloads considerar as G7?
- AI inference: Especialmente para modelos que exigem alta largura de banda de memória GPU, como LLMs e modelos de visão.
- Renderização gráfica e VDI: Com o ganho de 2,1x, é uma opção atraente para substituir estações de trabalho locais.
- Análise de dados acelerada por GPU: Como no Amazon EMR sobre EKS.
- Transcodificação de vídeo: Com suporte a 4:2:2 e maior densidade de streams.
Pontos de atenção
- Disponibilidade regional: A ausência inicial na América do Sul pode exigir uso de regiões nos EUA, com impacto em latência e custos de transferência de dados.
- Custo: Embora a performance tenha saltado, o custo por hora das G7 ainda não foi detalhado no anúncio. É essencial simular no AWS Pricing Calculator antes de migrar.
- Drivers e compatibilidade: Para usar com EKS, é necessário construir AMIs com o driver NVIDIA R595. Verifique a compatibilidade com suas ferramentas de CI/CD e pipelines de container.
Como começar?
As G7 já podem ser lançadas pelo console EC2. A AWS recomenda o uso de Deep Learning AMIs ou NVIDIA Workstation AMIs para começar rapidamente. Opções de compra incluem On-Demand, Savings Plans e Spot Instances. Para tamanhos a partir de 12xlarge, há suporte a Dedicated Instances.
Perguntas Frequentes
-
Quais são os principais ganhos de performance das instâncias G7 em relação às G6?
As G7 oferecem até 4,6x mais performance em inferência de IA e 2,1x em gráficos. A memória GPU aumentou 1,33x e a largura de banda da memória GPU é 2,45x maior. A rede EFA chega a 700 Gbps, 7x superior à geração anterior. -
Quais workloads se beneficiam mais das novas instâncias G7?
Workloads de AI inference, renderização gráfica, transcodificação de vídeo, análise de dados acelerada por GPU (como no Amazon EMR com EKS), VDI e computação espacial. O suporte a GPUDirect RDMA com EFA também beneficia workloads multi-GPU e multi-node. -
As instâncias G7 estão disponíveis no Brasil?
Não inicialmente. O lançamento ocorre nas regiões US East (Ohio) e US West (Oregon). A AWS não informou previsão para expansão para América do Sul. Empresas brasileiras devem considerar a latência adicional ao usar essas regiões. -
Quais opções de compra estão disponíveis para as G7?
As instâncias G7 podem ser adquiridas nos modelos On-Demand, Savings Plans e Spot Instances. Instâncias dedicadas são suportadas para os tamanhos 12xlarge, 24xlarge e 48xlarge. -
Quais sistemas operacionais e ferramentas são compatíveis com as G7?
As G7 suportam Amazon Linux, Ubuntu, RHEL e Windows Server. É possível usar AWS Deep Learning AMIs ou NVIDIA Workstation AMIs. Para Kubernetes, use EKS AMIs com driver NVIDIA R595. Há suporte a DirectX, Vulkan e OpenGL.
Artigo originalmente publicado por Daniel Abib em AWS News Blog.