No setor de tecnologia, as mudanças mais profundas raramente surgem apenas do aumento da coleta de dados. O verdadeiro salto ocorre quando mudamos quem — ou o quê — tem a permissão para agir sobre esses dados.
Nesta análise baseada no podcast “Grafana’s Big Tent”, exploramos o conceito de IA Agentica aplicada à observability. O debate contou com Tom Wilkie (CTO da Grafana Labs), Spiros Xanthos (CEO da Resolve AI), Manoj Acharya e Cyril Tovena (Grafana Labs). O foco não é apenas a automação, mas a criação de agentes capazes de raciocinar sobre infraestruturas complexas para identificar o root cause analysis (RCA) e, futuramente, executar o remediation de forma autônoma.
De Ferramentas a Operadores: A Tese da Resolve AI
Spiros Xanthos aponta um gargalo comum em empresas brasileiras que operam em escala: o tempo gasto não é na criação de software, mas na depuração e manutenção de sistemas legados ou microserviços complexos. A proposta da Resolve AI não é substituir as ferramentas existentes, mas criar agentes que trabalhem ao lado dos engenheiros SRE, atuando como operadores que conhecem o stack profundamente.
Para o gestor de TI no Brasil, isso resolve um problema crítico de talentos. Em vez de contratar mais engenheiros para monitorar dashboards, a IA agentica permite que o time atual foque em arquitetura, enquanto o agente lida com o suporte on-call.
Grafos de Conhecimento e Raciocínio Contextual
Um dos maiores desafios da observabilidade moderna é a falta de documentação atualizada — um cenário onipresente em ambientes ágeis. Manoj Acharya explica que a gênese de produtos eficazes de IA reside em Knowledge Graphs.
Esses grafos reconstróem as dependências do sistema em tempo real. Se um banco de dados três camadas abaixo do serviço afetado apresenta instabilidade, a IA utiliza o grafo de contexto para entender a cascata de falhas. Para empresas que operam ambientes multi-cloud, essa capacidade de navegar pelo grafo de dependências sem intervenção humana é um divisor de águas na redução do Mean Time to Recovery (MTTR).
Estudo de Caso: O Bug de Deadlock Identificado por IA
Xanthos compartilhou um exemplo prático: uma falha latente de concorrência que causava deadlocks apenas sob certas condições de carga. Enquanto o time de engenharia tentava dissecar o problema durante a crise ("panic moment"), o agente de IA, rodando em paralelo, identificou que uma mudança de código realizada três dias antes era a verdadeira causa raiz.
O diferencial aqui é a evidência. Engenheiros são, por natureza, céticos. Para que uma IA seja aceita em produção no Brasil, ela precisa fornecer provas do seu raciocínio. Caso contrário, corre o risco de levar o time para o caminho errado através de alucinações.
Confiança e o Momento de Transição
Cyril Tovena destaca que a confiança é construída através da precisão e do grounding (uso de dados reais como âncora). A técnica recomendada é exigir que o LLM cite os achados.
Estamos vivendo o que eles chamam de "momento Claude Code" ou "momento Cursor": quando o engenheiro percebe que a IA não está apenas sugerindo texto, mas executando tarefas complexas com contexto. A previsão é que, até o final deste ano, a IA para observabilidade alcance o mesmo nível de maturidade que a IA para codificação.
O que vem a seguir: Autonomia Total?
O horizonte para a autonomia total — agentes rodando software sem supervisão — ainda gera debate. Spiros Xanthos é otimista: ele prevê que, ate o final deste ano, a maioria dos incidentes terá uma resolução automatizada por um agente. O papel do humano mudará para o de um auditor de alto nível, mantendo a accountability final sobre o sistema.
Para as empresas brasileiras, a mensagem é clara: a observabilidade está deixando de ser uma atividade passiva de "olhar gráficos" para se tornar uma disciplina de automação agentica operacional. Adaptar-se a essa realidade é essencial para manter a estabilidade em um mercado tech cada vez mais veloz.
Artigo originalmente publicado por Grafana Labs Team em Grafana Labs blog on Grafana Labs.