TL;DR
Este artigo detalha a evolução da equipe do Azure Functions na investigação de incidentes, saindo de fluxos manuais e agentes de RCA (Root Cause Analysis) para o uso estratégico de coding agents integrados ao VS Code e, finalmente, automação em cloud. A lição central é que a qualidade desses agentes depende de ativos de 'conhecimento pronto para IA' e da capacidade de fornecer o contexto certo, sem excessos, permitindo diagnósticos mais rápidos e eficientes em ambientes críticos.
Na Nuvem Online, discutimos constantemente como a SRE (Site Reliability Engineering) e a IA podem coexistir para reduzir drasticamente o Mean Time to Resolution (MTTR). Investigar problemas complexos em ambientes cloud exige não apenas ferramentas de ponta, mas uma curadoria rigorosa de conhecimento técnico.
Como começou a jornada com o RCA assistido por IA?
Por volta de maio de 2024, a equipe do Azure Functions iniciou experimentos com um agent de RCA em parceria com a Microsoft Research. Inicialmente, tratava-se de um utilitário pessoal para escalar a análise de dados no Azure Data Explorer (Kusto). O valor imediato foi claro: embora o agente nem sempre entregasse uma root cause definitiva, ele era capaz de executar consultas multi-facetadas e testar hipóteses, reduzindo o tempo que o engenheiro gastaria navegando em dezenas de tabelas de log.
O que aprendemos com os fluxos agentes (Agentic Workflows)?
A primeira geração desses fluxos era altamente estruturada. Como os modelos de linguagem (LLMs) tinham limitações com queries Kusto complexas, a equipe criou ferramentas atreladas a queries fixas chamáveis via parâmetros.
Fig. 1 kusto query tool
Essa abordagem trazia previsibilidade, mas cobrava um preço alto em flexibilidade e manutenção. Se o incidente fugisse do happy-path desenhado, as ferramentas se tornavam obsoletas, gerando resultados que mal superavam dashboards estáticos.
Fig2. Agentic Workflow
Por que a mudança para Coding Agents transformou a operação?
No final de 2025, o cenário mudou com o uso de ferramentas nativas do GitHub Copilot. Com espaços de trabalho (workspaces) compartilháveis — contendo instruções, skills, prompts e configurações de MCP (Model Context Protocol) — a equipe pôde iterar com muito mais agilidade. O grande diferencial desta fase foi a capacidade do agente de "entender" o código, verificar dependências e rodar CLI tools de forma dinâmica, em vez de seguir um fluxo rígido pré-programado.
Fig 3. GitHub Copilot internal tool
O que compõe um material 'pronto para IA'?
A equipe destacou lições valiosas ao construir esses ativos. Para engenheiros e líderes de TI, os principais pontos são:
- Preferência por Guidance: Evite o excesso de especificações técnicas; dê diretrizes claras e aponte para a documentação técnica vigente.
- Gestão Deliberada de Contexto: Menos, neste caso, costuma ser mais. Evite sobrecarregar o modelo com payloads de logs gigantes.
- Uso de Arquivos como 'Durable Memory': Manter um arquivo de plano e checklist permite que o agente se recupere caso perca o contexto da conversa.
Por que a automação em cloud é o próximo passo natural?
Coding agents rodando na máquina do desenvolvedor são ótimos para o fluxo diário, mas falham como solução de nível empresarial por três motivos fundamentais: dependência de intervenção humana (context switching), questões críticas de autenticação (uso de credenciais de usuário em vez de Managed Identity) e falta de um ambiente de execução em regime de sandbox/durabilidade em failover.
Resultados e Feedback Loop
Ao comparar a execução local com um serviço em nuvem (cloud automation path), observou-se que o ganho de qualidade veio da capacidade do ambiente em nuvem de injetar o contexto correto exatamente quando necessário, utilizando LLMs mais fortes e acesso direto aos repositórios e ferramentas de mitigação.
Fig 4. Agent Helped Trend – O gráfico mostra como a adoção de agentes de codificação e automação em nuvem aumenta a eficácia da resolução.
Fig 5. LLM as Judge side-by-side eval para headless coding-agent execution service (azul) vs Azure SRE Agent (verde)
Fig 6. An Example of the Chat Interface for Azure SRE Agent
Conclusão
O sucesso da automação na investigação de incidentes não depende apenas de escolher o melhor modelo de IA, mas de como o conhecimento especializado da sua organização é traduzido em ativos que a IA pode consumir. A jornada do Azure Functions mostra que, ao combinar automação em nuvem com o rigor de SRE, equipes brasileiras de engenharia podem reduzir drasticamente o tempo de mitigação e focar no que realmente importa: inovação e escalabilidade.
Artigo originalmente publicado em Azure Updates - Latest from Azure Charts.