18 de junho de 2026•6 min de leitura

Ray Serve LLM no GKE: 5x mais throughput e 8x menos latência sem perder a experiência do desenvolvedor

Seiji Eicher

Google Cloud

Ray Serve LLM no GKE: 5x mais throughput e 8x menos latência sem perder a experiência do desenvolvedor

TL;DR — Este artigo analisa as três otimizações arquiteturais que tornaram o Ray Serve LLM no GKE até 5x mais rápido em throughput e 8x mais eficiente em latência: integração com HAProxy, streaming direto de tokens e novo backend v2 para vLLM. Para empresas brasileiras que rodam modelos de linguagem em produção, isso significa performance comparável ao vLLM nativo sem perder a flexibilidade do ecossistema Ray — ideal para workloads que exigem escalabilidade e baixa latência sem complexidade operacional extra.

Desenvolvedores que buscam inferência de LLM e serving de modelos frequentemente recorrem ao Ray Serve, uma biblioteca escalável de model serving com APIs Python nativas e foco em produtividade, construída pela Anyscale. Quando combinado com o Google Kubernetes Engine (GKE), as equipes ganham uma plataforma unificada e otimizada para casos de uso exigentes de serving de LLMs — desde o desenvolvimento inicial do modelo até a produção online.

No entanto, essa flexibilidade e conjunto de recursos costumavam ter um custo em performance. Mas hoje, em parceria com a Anyscale, estamos entregando até 5x mais throughput e 8x menos latência no Ray Serve, atendendo às demandas crescentes e aos rigorosos requisitos de performance de inferência distribuída de ponta — sem sacrificar a facilidade de uso.

Escalando inferência sem gargalos?

Por meio de uma engenharia conjunta, três otimizações arquiteturais foram introduzidas para transformar a performance do Ray Serve LLM:

Integração Ray Serve com HAProxy: o Ray Serve agora incorpora o HAProxy para gerenciar roteamento interno de requisições e load balancing. Essa configuração reduz drasticamente a sobrecarga do proxy e impede que o runtime Python sature sob tráfego intenso.
Arquitetura de streaming direto de tokens: essa arquitetura desacopla o caminho inicial da requisição do fluxo de retorno. Os tokens fluem diretamente das réplicas do modelo para o proxy, ignorando completamente o ingress router no caminho de streaming, reduzindo a latência.
Backend v2 do Ray executor para vLLM: o backend reformulado para vLLM move o Ray para fora do data plane, permitindo scheduling assíncrono. Isso unifica o caminho de código com os executores nativos do vLLM, fechando a lacuna de performance e garantindo que usuários do Ray se beneficiem das otimizações mais recentes do motor.

Benchmarking de performance no GKE: o que os números mostram?

Em parceria com a Anyscale, a equipe também realizou benchmarks do Ray Serve LLM atualizado em clusters GKE com hardware de IA de última geração — incluindo VMs A4 do Google Cloud equipadas com sistemas NVIDIA HGX B200. O modelo escolhido foi o Gemma 4 E2B, um modelo pequeno e eficiente, ideal para isolar gargalos introduzidos por orquestração e roteamento. Os benchmarks compararam o novo Ray Serve LLM com sua performance anterior e com uma configuração de vLLM puro usando o executor Ray.

Essas melhorias técnicas geram um impacto transformador: até 5x mais throughput e 8x melhor latência em comparação com configurações anteriores do Ray Serve.

O Ray Serve LLM melhorado mostrou uma evolução notável em um cluster de serving com oito réplicas, exibindo um padrão de escalabilidade que supera amplamente a performance anterior e se aproxima da performance do vLLM nativo — mas sem abrir mão da flexibilidade que o Ray oferece.

Sua empresa quer escalar inferência de LLM sem comprometer performance? Conheça as soluções de infraestrutura cloud da Nuvem Online.

Por que escolher o GKE para Ray Serve?

O GKE fornece a infraestrutura fundamental que faz essas otimizações de software brilharem. Ao usar o Ray Operator add-on para GKE, você obtém deployment turnkey nos aceleradores de IA do Google Cloud, incluindo escalabilidade horizontal automatizada, monitoramento, escalabilidade multi-cluster e tolerância a falhas embutida. O GKE abstrai as partes complexas da orquestração de hardware físico distribuído — sua equipe pode se concentrar em refinar modelos e lógica de aplicação com Ray.

Teste o Ray Serve LLM no GKE

Incentivamos desenvolvedores a experimentar essas melhorias na versão mais recente do Ray (2.56 em diante) e vivenciar o futuro do serving de LLMs de alta performance no GKE.

Para mais detalhes, consulte os recursos abaixo:

Perguntas Frequentes

Quais as três principais otimizações introduzidas no Ray Serve LLM?
Foram implementadas: (1) integração com HAProxy para roteamento e load balancing interno; (2) arquitetura de streaming direto de tokens, que desacopla o caminho de requisição do retorno; (3) backend v2 para vLLM, que move o Ray para fora do data plane e unifica o código com executores nativos do vLLM.

Essas melhorias funcionam apenas no GKE ou podem ser usadas em outros clusters Kubernetes?
As otimizações são nativas do Ray Serve LLM (versão 2.56+), portanto podem ser usadas em qualquer cluster Kubernetes. No entanto, o GKE oferece um add-on Ray Operator que facilita o deployment, escalabilidade horizontal, monitoramento e tolerância a falhas, potencializando os ganhos.

Como o desempenho se compara ao vLLM puro?
Segundo os benchmarks com o modelo Gemma 4 E2B em oito réplicas, o Ray Serve LLM otimizado atinge desempenho comparável ao vLLM nativo - mas com a vantagem de manter a flexibilidade e o ecossistema de ferramentas que o Ray oferece para desenvolvimento e operação.

Quais acelaradores de hardware foram usados nos testes?
Os benchmarks foram executados em clusters GKE com VMs A4 equipadas com sistemas NVIDIA HGX B200, usando o modelo Gemma 4 E2B para isolar gargalos de orquestração e roteamento.

Posso testar essas melhorias hoje?
Sim. As otimizações estão disponíveis a partir do Ray release 2.56. A documentação oficial inclui guias para habilitar alta throughput com KubeRay, servir LLMs com multi-cluster Ray e GKE Inference Gateway, e deploy de modelos Gemma no GKE com Ray.

Artigo originalmente publicado por Seiji Eicher, Software Engineer, Anyscale em Cloud Blog.

Tags:

#RayServe #LLM #GKE #GoogleCloud #Anyscale #Kubernetes #MLOps #InferenciaIA

Gostou? Compartilhe:

Ray Serve LLM no GKE: 5x mais throughput e 8x menos latência sem perder a experiência do desenvolvedor

Seiji Eicher

Ray Serve LLM no GKE: 5x mais throughput e 8x menos latência sem perder a experiência do desenvolvedor

Escalando inferência sem gargalos?

Benchmarking de performance no GKE: o que os números mostram?

Por que escolher o GKE para Ray Serve?

Teste o Ray Serve LLM no GKE

Perguntas Frequentes

Você também pode gostar

Simplifique alterações de schema no Fabric Data Warehouse com ALTER COLUMN (Preview)

Crossplane Provider for OCI agora suporta Crossplane v2: impacto para plataformas Kubernetes no Brasil

Crossplane Provider for OCI agora suporta Crossplane v2: impacto para plataformas Kubernetes no Brasil