28 de maio de 202612 min de leitura

IA no SRE: onde e como o Google está implantando IA agentic para melhorar operações

Christopher Heiser

Google Cloud

Banner - IA no SRE: onde e como o Google está implantando IA agentic para melhorar operações

TL;DR: O Google SRE está integrando agentes de IA (IA agentic) para ir além da automação tradicional, atuando em design de confiabilidade, detecção de anomalias, investigação e mitigação de incidentes. A abordagem prioriza transparência, identidade forte para agentes e avaliação contínua. Para empresas brasileiras, o modelo mostra como reduzir alertas manuais e acelerar resolução de problemas, desde que haja governança e qualidade de dados adequadas.

Desde sua criação há mais de 20 anos, o Google utiliza Site Reliability Engineering (SRE) para manter serviços como Search, Gmail, Maps, YouTube e Google Cloud confiáveis e altamente disponíveis, seguindo os princípios e práticas da mentalidade reliability-first.

Recentemente, porém, o surgimento da IA provocou múltiplas mudanças de patamar na complexidade dos sistemas. As interações entre componentes ficaram mais complicadas devido a diversos fatores:

  • Com arquiteturas de microsserviços, os sistemas estão distribuídos por localizações geográficas mais amplas e data centers com maior diversidade de hardware.
  • Os produtos de cloud empresarial oferecem uma vasta gama de capacidades com um conjunto de produtos incrivelmente complexo.
  • Os serviços do Google agora cobrem requisitos de negócios e regulatórios mais específicos, tornando a topologia e a taxonomia gerais muito mais complexas e difíceis de entender — desafio amplificado pelo fluxo constante de mudanças decorrentes de continuous deployment pipelines.
  • As capacidades de geração de código com IA permitiram que desenvolvedores de software entregassem ordens de magnitude a mais de código, resultando em mais oportunidades de introduzir problemas de confiabilidade.

Embora a IA esteja, de certa forma, tornando o trabalho da equipe SRE mais desafiador, ela também oferece novas maneiras de entender e melhorar os ciclos de vida de desenvolvimento de software, incluindo operações em produção. O Google SRE está no caminho de adotar plenamente a IA e as tecnologias agentic, utilizando a IA como um force multiplier enquanto mantém o controle. Eles chamam isso de SRE AI.

Continue lendo para um resumo das considerações sobre esse tema, ou mergulhe diretamente no whitepaper completo, AI in SRE Practice: Moving Beyond Automation at Google, para uma visão aprofundada de como o Google SRE está navegando a transição da automação determinística para a IA agentic.

O panorama de oportunidades do SRE AI

Para ajudar a definir sua estratégia de SRE AI, o Google considerou todo o ciclo de vida de desenvolvimento de software (SDLC) em busca de áreas de oportunidade.

image1

O diagrama acima mostra cada uma das fases em que o SRE está envolvido e que poderiam ser melhoradas com o SRE AI.

Talvez a área mais óbvia do SRE que poderia se beneficiar da IA agentic seja a investigação e mitigação, às vezes chamada de root cause analysis (RCA), um pilar da disciplina tradicional de SRE. Mas RCA não é todo o SRE AI. Os planos do Google para SRE AI vão muito além de RCA e troubleshooting, abordando todo o SDLC. Aqui estão algumas áreas em que estão trabalhando:

Como a IA agentic transforma o design de confiabilidade?

O SRE tem trabalhado nas políticas, ferramentas e procedimentos necessários para garantir que a confiabilidade seja parte integrante do design do sistema durante as fases de design, lançamento e implantação. Uma abordagem agentic não implica necessariamente remover pessoas do processo, especificamente para serviços e funcionalidades de alto risco, mas reduz significativamente o tempo que as pessoas precisam gastar, já que várias questões podem ser detectadas e resolvidas automaticamente antes de precisarem ser revisadas por uma pessoa.

Runbooks (playbooks) e outra documentação usada durante incidentes são artefatos de produção importantes. O Google SRE desenvolveu agentes de IA para monitorar e melhorar continuamente playbooks e documentação de produção com base em seu uso durante incidentes. Agentes de IA também podem gerar novos playbooks a partir de incidentes.

Como a detecção de anomalias com IA supera thresholds estáticos?

Uma prática central do SRE é definir service level indicators (SLIs) e service level objectives (SLOs), e configurar alertas para eles. Essa abordagem tende a ser adequada se os casos de uso do serviço forem bastante uniformes, e se for possível definir objetivos alinhados às expectativas dos clientes.

No entanto, para produtos que suportam uma variedade de casos de uso e workloads, como muitos no Google Cloud, pode ser difícil definir um threshold estático que funcione em diferentes workloads. Com IA, o Google SRE está aumentando suas abordagens tradicionais com detecção de anomalias, com alertas baseados na detecção de anomalias no comportamento regular, em vez de thresholds predefinidos estaticamente. Essa abordagem depende de agentes para coletar sinais e alimentá-los a um modelo (ex.: TimesFM) para realizar detecção de anomalias. Sinais históricos de casos anteriores de clientes ajudam o agente de IA a prever SLOs orientados ao cliente. Além disso, a detecção de anomalias baseada em IA pode consultar fontes além dos sinais produzidos pelo próprio serviço — por exemplo, feedback de clientes.

Nesse modelo, quando o agente SRE AI detecta uma anomalia, ele dispara um alerta. Então, o agente de alerta SRE AI agrupa, pré-processa e enriquece os alertas com o contexto e informações necessárias. Esses alertas, por sua vez, são processados por handlers autônomos de alertas de IA, que podem resolver ou mitigar uma infinidade de problemas. O resultado desse sistema é uma resolução mais rápida de problemas e uma provável redução significativa no número de alertas que os SREs precisam revisar.

O que é fundamental nesse ecossistema de agentes é ser consistentemente transparente sobre quais dados os agentes estão avaliando — e como — e ter controles consistentes para evitar mutações indesejadas do estado de produção.

Como a IA agentic melhora o gerenciamento de incidentes?

Dentro do Google SRE, o gerenciamento de incidentes, ou IMAG, é um processo bem estabelecido com papéis e responsabilidades claros, além de ferramentas. O SRE AI inclui uma camada de orquestração agentic sobre o processo atual de IMAG, composta por agentes que:

  • Monitoram as superfícies de comunicação usadas durante o incidente (ferramentas de resposta a incidentes, spaces de chat, vídeos, documentos de acompanhamento) e consolidam/resumem dados para melhorar a comunicação e o compartilhamento de informações durante o incidente.
  • Apoiam a passagem de bastão entre SREs participantes do incidente, criando documentos de handoff com o contexto necessário.
  • Criam automaticamente rascunhos de postmortems de incidentes, melhorando sua qualidade, reduzindo o esforço do SRE e garantindo que informações relevantes sejam incluídas.
  • Gerenciam comunicações internas e externas de incidentes.

Como a investigação de incidentes se beneficia de agentes autônomos?

A equipe SRE do Google também criou agentes para investigar incidentes e, em alguns casos, mitigar problemas de forma autônoma.

Antes de poderem formar hipóteses e propor etapas de mitigação, esses agentes usam dados de observability (logging, monitoring, tracing), bem como dados de topologia, taxonomia e dependência do sistema para estabelecer domínio e intenção. Alguns outros blocos de construção que esses agentes usam são agentes distintos que a equipe criou para navegar e executar playbooks, acessar alertas, realizar detecção de anomalias e derivar insights de incidentes.

Como insights e gerenciamento de riscos são aprimorados por IA?

O SRE requer uma compreensão do sistema end-to-end e soluções de mitigação eficazes, experiência e lições aprendidas de incidentes passados, e a capacidade de realizar gerenciamento de riscos. Agentes de IA autônomos precisam de habilidades semelhantes para gerenciar ambientes de produção.

Embora um sistema comum de topologia ou taxonomia possa ensinar os agentes sobre o sistema end-to-end, e ferramentas e habilidades bem documentadas do Model Context Protocol (MCP) possam ensiná-los sobre as ferramentas disponíveis, é necessário ter uma maneira de ensinar continuamente os agentes sobre problemas históricos e seus riscos associados. Para resolver esse problema, a equipe SRE do Google criou o AI Insights, um sistema que revisa continuamente incidentes conhecidos e extrai informações significativas deles, disponibilizando-as para agentes para impulsionar melhores investigações e etapas de mitigação. Modelos de embedding Gemini e bancos de dados vetoriais alimentam esse sistema.

A outra parte do sistema são os insights de risco. O sistema de IA marca cada incidente com categorias de risco apropriadas que podem ser usadas tanto pelos agentes antes de aplicar mitigações quanto pelos SREs para determinar áreas críticas a serem abordadas.

Considerações de design

Antes de construir esses agentes, o Google SRE definiu alguns princípios de alto nível para sua adoção:

  • Processos e operações que já são automatizados com sucesso, ou que podem ser facilmente automatizados com sistemas clássicos não baseados em IA, não precisam ser substituídos (desde que atendam às necessidades do negócio).
  • Qualquer novo sistema baseado em IA deve estar em conformidade com políticas e procedimentos existentes e futuros para manter os compromissos fortes que temos com nossos clientes.
  • Um agente SRE AI precisa atender aos requisitos de segurança, proteção e privacidade da mesma forma que os sistemas atuais e os humanos.
  • Os agentes SRE AI devem ter uma identidade forte (agentes têm papéis e permissões atribuídas).
  • Os agentes SRE AI precisam fornecer um alto nível de SLOs de confiabilidade e ter opções de backup bem definidas (automatizadas ou manuais).
  • Os agentes SRE AI devem ser capazes de explicar e raciocinar sobre por que e como realizaram uma ação, bem como quais opções foram consideradas e rejeitadas. Em outras palavras, favorecemos a transparência em vez da automação em caixa-preta.
  • Os planos de continuidade de negócios devem incluir contingências para possíveis falhas de IA.
  • Os sistemas baseados em IA precisam de acesso contínuo a dados de produção para tomar decisões corretas.
  • Os sistemas de IA precisam ser avaliados continuamente contra um framework de qualidade, além de suportar auditoria e relatórios para permitir ferramentas de segurança como detecção e resposta.

Além disso, foi estipulado que os sistemas SRE AI devem tornar os serviços do Google ainda melhores para usuários e clientes, realizando pelo menos um dos seguintes:

  • Aliviar os engenheiros de operações laboriosas e repetitivas.
  • Ajudar os engenheiros a melhorar a qualidade e a velocidade da tomada de decisão e execução.
  • Permitir que SREs previnam, detectem e/ou mitiguem problemas melhor do que antes.
  • Habilitar loops de feedback agentic autônomos que impulsionem melhorias na confiabilidade do serviço.
  • Reduzir custos operacionais gerais.

Construído sobre infraestrutura comprovada

O SRE AI do Google é construído sobre infraestrutura comprovada do Google:

Esses componentes de infraestrutura são agrupados em sistemas autônomos. No Google, sistemas autônomos para gerenciar produção são desenvolvidos e usados há muito tempo. No entanto, os sistemas autônomos baseados em IA de hoje são muito poderosos e nem sempre determinísticos. Para ajudar a entender o quão autônomos os sistemas realmente são, foi desenvolvida uma forma de rastrear níveis de autonomia.

Aprofunde-se: Leia o whitepaper

Para engenheiros e líderes que desejam explorar a arquitetura técnica e os modelos de governança rigorosos por trás dessas inovações, convidamos você a ler nosso whitepaper abrangente, "AI in SRE Practice: Moving Beyond Automation at Google", que fornece uma visão aprofundada de como o Google SRE está navegando a transição da automação determinística para a IA agentic. Faça o download do whitepaper aqui.

Perguntas Frequentes

  • Como a IA agentic difere da automação tradicional no SRE?
    A automação tradicional segue regras determinísticas e fixas. A IA agentic utiliza modelos que tomam decisões baseadas em contexto, aprendem com dados históricos e podem executar ações autônomas, como investigar anomalias e mitigar incidentes, com transparência e justificativa.

  • Quais áreas do SDLC são beneficiadas pelos agentes de IA no Google SRE?
    As principais áreas incluem design de confiabilidade (revisão automatizada de playbooks), detecção de anomalias (além de thresholds estáticos), gerenciamento de incidentes (consolidação de comunicação, handoffs, postmortems), investigação de incidentes (hipóteses e mitigações) e insights de risco (aprendizado contínuo com incidentes passados).

  • Que princípios de design o Google adota para garantir segurança e confiabilidade dos agentes?
    Os agentes devem ter identidade forte (papéis e permissões), explicar suas ações, atender a requisitos de segurança/privacidade, ter SLOs de confiabilidade com backup, e ser avaliados continuamente. Além disso, sistemas de IA devem ter acesso contínuo a dados de produção e planos de contingência para falhas.

  • Como a detecção de anomalias baseada em IA melhora os alertas comparado a thresholds estáticos?
    Thresholds estáticos falham em workloads variados. A detecção de anomalias usa modelos como TimesFM para identificar desvios no comportamento normal, considerando sinais históricos e feedback de clientes. Isso reduz falsos positivos e permite alertas mais precisos, além de enriquecimento automático com contexto.

  • Quais infraestruturas o Google utiliza para construir seus agentes SRE AI?
    O Google utiliza o modelo Gemini, a plataforma Vertex AI (agora Gemini Enterprise Agent Platform), o Agent Development Kit (ADK), servidores MCP, infraestrutura de observability (logging, monitoring, tracing), BigQuery e bancos de dados vetoriais, tudo integrado em sistemas autônomos.


Artigo originalmente publicado por Christopher Heiser, Distinguished Site Reliability Engineer em Cloud Blog.

Gostou? Compartilhe:
Precisa de ajuda?Fale com nossos especialistas 👋
Avatar Walcew - Headset