28 de maio de 20269 min de leitura

A próxima geração do AWS Resilience Hub: jornada de resiliência SRE com IA generativa para empresas brasileiras

Channy Yun (윤석찬)

AWS Blog

Banner - A próxima geração do AWS Resilience Hub: jornada de resiliência SRE com IA generativa para empresas brasileiras

TL;DR: Este artigo analisa o lançamento da nova geração do AWS Resilience Hub. A ferramenta agora oferece políticas modulares de resiliência, modelagem de aplicações por caminhos de usuário, avaliação de modos de falha com IA generativa e descoberta automática de dependências. Para empresas brasileiras, isso significa padronizar metas de resiliência, reduzir riscos de indisponibilidade e comprovar conformidade em ambientes multi-conta. A conclusão principal: a plataforma unifica a jornada de SRE com visão organizacional, mas exige planejamento de custos e integração com processos existentes.

A AWS anunciou a próxima geração do AWS Resilience Hub, trazendo uma experiência significativamente expandida que combina um novo modelo de aplicação, descoberta e avaliação de dependências, análise de modos de falha baseada em IA generativa, políticas modulares de resiliência e relatórios em nível organizacional.

Organizações que operam centenas de aplicações compartilham um desafio comum: disponibilidade é a principal preocupação, mas não há uma maneira consistente de definir metas de resiliência, medir o progresso ou comprovar conformidade em todo o portfólio. Equipes adotam padrões diferentes, usam ferramentas distintas e têm dificuldade para trocar informações sobre se as aplicações realmente atendem às expectativas.

Como a nova geração do AWS Resilience Hub muda o jogo para SREs?

A próxima geração do Resilience Hub muda isso ao oferecer a Site Reliability Engineers (SREs) e times de desenvolvimento uma maneira estruturada de alinhar expectativas com políticas de resiliência, ajudar equipes de aplicação a atingi-las e demonstrar conformidade por meio de testes. Com a integração ao AWS Organizations, as equipes podem agora avaliar a resiliência em escala, identificar modos de falha, descobrir dependências ocultas e relatar o progresso em toda a empresa.

A nova versão guia você em sua jornada de resiliência com os seguintes conceitos integrados:

  • Resilience policy: Defina suas expectativas de resiliência por meio de requisitos modulares e componíveis. Em vez de escolher um único tipo de política rígida, você constrói políticas selecionando os requisitos que importam para sua aplicação, como service level objective (SLO), recuperação de desastres multi-AZ e multi-Region, e requisitos de recuperação de dados.
  • Business-level understanding: Utilize o novo modelo de aplicação por meio de caminhos críticos de usuário final que mapeiam diretamente para resultados de negócio. Systems representam uma aplicação de negócio, user journeys descrevem caminhos críticos de negócio e services são as unidades implantáveis que compõem recursos AWS, código e observabilidade. O Resilience Hub descobre e mapeia automaticamente esses elementos em uma topologia que mostra como os recursos se conectam.
  • AI failure mode assessments: Execute avaliações com IA generativa que analisam seus serviços contra as políticas de resiliência definidas, as melhores práticas do AWS Well-Architected e o AWS Resilience Analysis Framework. Essas avaliações identificam modos de falha potenciais e fornecem recomendações acionáveis.
  • Dependency discovery assessment: Descubra automaticamente serviços AWS, endpoints internos e endpoints de terceiros dos quais seus serviços dependem. Esta avaliação usa análise de logs de consultas DNS para identificar dependências que você pode desconhecer — incluindo chamadas cross-region inesperadas ou dependências críticas de terceiros.

Quais são os passos práticos para começar a usar?

Para começar, você configura uma política de resiliência, cria seu primeiro sistema e serviço, executa uma avaliação de modo de falha, revisa os resultados e implementa as descobertas.

Antes de iniciar, configure a IAM role invoker, que concede ao Resilience Hub acesso somente leitura aos seus recursos AWS, contas cross-account (se não usar AWS Organizations) ou service-linked roles (SLRs) com AWS Organizations. O Resilience Hub também se integra ao AWS Organizations para permitir o gerenciamento de resiliência em toda a organização a partir de uma única conta de administrador delegado. Isso elimina a necessidade de acessar contas individuais para avaliar a postura de resiliência em toda a empresa. Para mais detalhes, consulte os pré-requisitos no Guia do Usuário.

Para configurar uma política de resiliência, escolha Create policy no menu Policies através do console do AWS Resilience Hub. Insira um nome, descrição e escolha os requisitos de resiliência. Por exemplo, você pode criar uma política reutilizável para recuperação de desastres multi-Region usada em aplicações financeiras — incluindo SLO de disponibilidade de 99,95%, RTO de 15 minutos, RPO de 5 minutos para DR multi-Region e uma abordagem de DR alinhada aos seus requisitos de RTO e RPO.

Se você escolher requisitos de recuperação de dados, pode definir o data recovery time objective para restaurar a partir de backups para cada serviço associado a esta política.

Create policy

Para criar seu primeiro sistema representando sua aplicação de negócio, escolha Create a system no menu Systems. Opcionalmente, você pode habilitar o acesso de conta AWS Organizations para este sistema.

Create system

Agora você pode criar um serviço que representa uma unidade implantável, como um dos seus microserviços, associá-lo ao seu sistema e informar ao Resilience Hub onde encontrar seus recursos. Insira um nome de serviço, por exemplo stock-exchange-service, escolha sua política de resiliência e o nome da IAM role invoker. Você pode selecionar as Regiões do serviço, recursos do serviço como tags de recursos, stack AWS CloudFormation, localização do arquivo de estado do Terraform ou cluster e namespace Amazon EKS.

Ao habilitar a descoberta de dependências para este serviço, a AWS examina os VPC query logs das VPCs associadas aos recursos do seu serviço. Você pode desabilitar esse recurso a qualquer momento nas configurações de descoberta de dependências na página de detalhes do serviço.

Create service

Agora, execute sua primeira avaliação com a criação do serviço concluída e uma política aplicada. Escolha Run failure mode assessment na página do seu serviço e aguarde a conclusão da avaliação.

Failure mode assessment

Durante a avaliação, o Resilience Hub assume sua invoker role, lê recursos das fontes de entrada configuradas, identifica relações pai-filho, consulta o serviço de topologia de aplicações para mapear conexões entre recursos e constrói uma topologia mostrando fluxo de dados, contenção e permissões.

Ao escolher Service topology, você pode ver os recursos do serviço agrupados por funções do serviço em formato gráfico, tabela ou JSON.

Service topology

Ao escolher Failure mode guidance, você pode adicionar asserções usadas para guiar os agentes durante a avaliação dos modos de falha. As asserções são geradas pelo agente ou adicionadas pelos usuários. Você pode atualizá-las para melhorar a precisão da avaliação.

Failure mode guidance

Assim que a avaliação for concluída, você pode revisar as descobertas e recomendações na aba Assessment da página do seu serviço. Cada descoberta informa qual é o modo de falha, por que ele é importante para sua arquitetura, como corrigi-lo e a qual requisito de política ele se relaciona.

Assessment result

Você pode escolher Mark as resolved para implementar a recomendação ou Mark as irrelevant se a descoberta não se aplicar ao seu caso de uso.

Se você já é cliente do Resilience Hub, a nova versão oferece APIs de migração para simplificar a transição de suas aplicações anteriores. Essas APIs convertem suas políticas de avaliação anteriores em novas políticas de resiliência e mapeiam suas aplicações anteriores para o novo modelo — por exemplo, várias aplicações relacionadas em um sistema com vários serviços.

Quando estará disponível e qual o modelo de precificação?

A próxima geração do AWS Resilience Hub já está geralmente disponível nas Regiões comerciais da AWS onde o Resilience Hub está presente. Para disponibilidade regional e roadmap futuro, consulte a página AWS Capabilities by Region.

O Resilience Hub adota um novo modelo de precificação baseado em serviços. O preço inclui duas avaliações de modo de falha por mês por serviço e, opcionalmente, a avaliação automatizada de dependências. Você pode experimentar o AWS Resilience Hub gratuitamente. Para detalhes de precificação, visite a página de preços.

Teste o novo AWS Resilience Hub no console do Resilience Hub e envie feedback pelo AWS re:Post para Resilience Hub ou através dos seus contatos de suporte AWS.

Perguntas Frequentes

  • Como funciona o novo modelo de aplicação com sistemas e serviços?
    A nova versão introduz uma abstração em três níveis: Systems (aplicações de negócio), User Journeys (caminhos críticos de usuário) e Services (unidades implantáveis, como microserviços). O Resilience Hub descobre automaticamente os recursos AWS e mapeia as conexões entre eles, gerando uma topologia que facilita a análise de dependências e a aplicação de políticas de resiliência.

  • Quais são os benefícios reais da análise de falhas com IA generativa?
    A avaliação generativa de modos de falha analisa cada serviço contra as políticas de resiliência definidas, as melhores práticas do AWS Well-Architected e o Resilience Analysis Framework. Ela identifica potenciais falhas, explica por que são relevantes e oferece recomendações acionáveis. Para empresas brasileiras, reduz o tempo de análise manual e ajuda a descobrir riscos ocultos em arquiteturas complexas.

  • Como a descoberta de dependências ajuda a evitar surpresas em produção?
    A funcionalidade de Dependency Discovery usa a análise de logs de consultas DNS nas VPCs associadas aos serviços para identificar dependências internas e de terceiros que a equipe pode desconhecer — como chamadas cross-region inesperadas ou integrações críticas com APIs externas. Isso permite eliminar pontos cegos que poderiam causar indisponibilidade.

  • Preciso usar o AWS Organizations para aproveitar os novos recursos?
    Não é obrigatório, mas é fortemente recomendado. A integração com AWS Organizations permite gerenciar a resiliência de toda a organização a partir de uma única conta de administrador delegado, sem precisar acessar contas individuais. Para empresas brasileiras com múltiplas contas, isso simplifica a governança e a geração de relatórios de conformidade.

  • O novo modelo de precificação pode impactar o custo total?
    Sim, a nova versão adota um modelo baseado em serviços, incluindo duas avaliações de modo de falha por mês por serviço e, opcionalmente, a avaliação automatizada de dependências. É possível testar gratuitamente. Para times de FinOps no Brasil, é essencial revisar a página de pricing da AWS e projetar o uso real, pois o número de serviços e a frequência de avaliações influenciam diretamente o custo.


Artigo originalmente publicado por Channy Yun (윤석찬) em AWS News Blog.

Gostou? Compartilhe:
Precisa de ajuda?Fale com nossos especialistas 👋
Avatar Walcew - Headset