17 de fevereiro de 20264 min de leitura

Amazon SageMaker Inference agora suporta modelos customizados Amazon Nova: O que muda para o ROI de IA no Brasil

Channy Yun (윤석찬)

AWS Blog

Banner - Amazon SageMaker Inference agora suporta modelos customizados Amazon Nova: O que muda para o ROI de IA no Brasil

Desde o lançamento da customização do Amazon Nova no Amazon SageMaker AI, o mercado brasileiro de tecnologia tem buscado paridade de recursos entre esses modelos proprietários e os modelos de pesos abertos (open weights). A demanda principal? Controle granular. Empresas que operam em escala precisam de flexibilidade para ajustar tipos de instâncias, políticas de auto-scaling e configurações de concorrência que os workloads de produção exigem.

Hoje, analisamos o anúncio da disponibilidade geral (GA) do suporte a modelos Nova customizados no Amazon SageMaker Inference. Trata-se de um serviço gerenciado de nível de produção, configurável e focado em eficiência de custos para implantar modelos Nova de rank completo.

Na prática, isso significa que times de engenharia no Brasil agora possuem uma jornada end-to-end: é possível treinar modelos Nova Micro, Nova Lite e Nova 2 Lite (com suporte a reasoning) utilizando Amazon SageMaker Training Jobs ou Amazon HyperPod, e implantá-los diretamente na infraestrutura de inferência gerenciada do SageMaker AI.

Eficiência Operacional e FinOps: Além do P5

Um dos pontos mais críticos para empresas brasileiras, dado o custo de infraestrutura em nuvem, é a otimização de recursos. Com o SageMaker Inference para modelos Nova customizados, é possível reduzir o custo de inferência através da utilização otimizada de GPUs em instâncias Amazon EC2 G5 e G6, que costumam oferecer um melhor custo-benefício em comparação às instâncias P5 para diversos casos de uso.

Além disso, o suporte a auto-scaling baseado em padrões de uso de 5 minutos e parâmetros de inferência configuráveis (como context length, concorrência e batch size) permite que arquitetos de soluções equilibrem o trade-off entre latência, custo e precisão de forma específica para cada workload.

Como implantar modelos Nova customizados no SageMaker Inference

Se você já possui um artefato de modelo Nova treinado (via continued pre-training, supervised fine-tuning ou reinforcement fine-tuning), a implantação pode ser feita via SageMaker Studio ou SageMaker AI SDK.

No SageMaker Studio, basta selecionar o modelo treinado no menu Models. O processo de deployment é iniciado através do botão Deploy, selecionando SageMaker AI e Create new endpoint.

Interface de deployment no SageMaker

Ao configurar o endpoint, você define o nome do serviço, o tipo de instância e opções avançadas como contagem de instâncias e isolamento de rede. Na fase de GA, as instâncias suportadas variam conforme o modelo:

  • Nova Micro: Suporta g5.12xlarge até p5.48xlarge.
  • Nova Lite: Focado em instâncias g5.48xlarge, g6.48xlarge e p5.48xlarge.
  • Nova 2 Lite: Requer o poder de processamento das instâncias p5.48xlarge.

Configuração de endpoint no SageMaker

Após o provisionamento da infraestrutura e inicialização do container de inferência, o endpoint muda para o status InService. A partir daí, é possível testar o modelo diretamente no Playground do SageMaker, enviando prompts em modo Chat.

Teste no Playground do SageMaker

Implementação via SDK: O caminho para automação

Para times de DevOps e engenheiros de Machine Learning que buscam integração com pipelines de GitOps, o uso do SageMaker AI SDK é o caminho recomendado. O código abaixo exemplifica a criação de um modelo referenciando os artefatos no S3 e definindo variáveis de ambiente como CONTEXT_LENGTH e MAX_CONCURRENCY:

# Criando um modelo no SageMaker AI
    model_response = sagemaker.create_model(
        ModelName= 'Nova-micro-ml-g5-12xlarge',
        PrimaryContainer={
            'Image': '708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:v1.0.0',
            'ModelDataSource': {
                'S3DataSource': {
                   'S3Uri': 's3://seu-bucket/caminho/para/artefatos/',
                   'S3DataType': 'S3Prefix',
                   'CompressionType': 'None'
                }
            },
            # Parâmetros do Modelo
            'Environment': {
                'CONTEXT_LENGTH': 8000,
                'MAX_CONCURRENCY': 16,
                'DEFAULT_TEMPERATURE': 0.0,
                'DEFAULT_TOP_P': 1.0
            }
        },
        ExecutionRoleArn=SAGEMAKER_EXECUTION_ROLE_ARN,
        EnableNetworkIsolation=True
    )
    print("Modelo criado com sucesso!")

Posteriormente, configura-se o endpoint real-time, que fornecerá uma interface HTTPS segura para as requisições:

# Configuração do Endpoint
    production_variant = {
        'VariantName': 'primary',
        'ModelName': 'Nova-micro-ml-g5-12xlarge',
        'InitialInstanceCount': 1,
        'InstanceType': 'ml.g5.12xlarge',
    }
    
    config_response = sagemaker.create_endpoint_config(
        EndpointConfigName= 'Nova-micro-ml-g5-12xlarge-Config',
        ProductionVariants= production_variant
    )
    
# Deployment do endpoint
    endpoint_response = sagemaker.create_endpoint(
        EndpointName= 'Nova-micro-ml-g5-12xlarge-endpoint',
        EndpointConfigName= 'Nova-micro-ml-g5-12xlarge-Config'
    )

O SageMaker AI suporta tanto endpoints síncronos (com modos streaming e non-streaming) quanto endpoints assíncronos para processamento em lote (batch processing).

Disponibilidade e Considerações Estratégicas

Atualmente, a inferência para modelos Nova customizados está disponível nas regiões US East (N. Virginia) e US West (Oregon). Para empresas brasileiras que operam com sensibilidade à latência, é vital considerar o posicionamento geográfico desses modelos em relação à sua base de usuários, embora a robustez do SageMaker compense muitos desafios de rede em aplicações não-críticas em milissegundos.

O modelo de cobrança segue o padrão de instâncias de computação utilizadas por hora, sem compromissos mínimos, o que favorece estratégias de teste e validação de ROI antes de grandes deployments.


Artigo originalmente publicado por Channy Yun (윤석찬) em AWS News Blog.

Gostou? Compartilhe:
Precisa de ajuda?Fale com nossos especialistas 👋
Avatar Walcew - Headset