20 de maio de 20265 min de leitura

De Coding Agents à automação em cloud: investigações de incidentes com IA no Azure Functions

Banner - De Coding Agents à automação em cloud: investigações de incidentes com IA no Azure Functions

TL;DR

Este artigo detalha a evolução da equipe do Azure Functions na investigação de incidentes, saindo de fluxos manuais e agentes de RCA (Root Cause Analysis) para o uso estratégico de coding agents integrados ao VS Code e, finalmente, automação em cloud. A lição central é que a qualidade desses agentes depende de ativos de 'conhecimento pronto para IA' e da capacidade de fornecer o contexto certo, sem excessos, permitindo diagnósticos mais rápidos e eficientes em ambientes críticos.

Na Nuvem Online, discutimos constantemente como a SRE (Site Reliability Engineering) e a IA podem coexistir para reduzir drasticamente o Mean Time to Resolution (MTTR). Investigar problemas complexos em ambientes cloud exige não apenas ferramentas de ponta, mas uma curadoria rigorosa de conhecimento técnico.

Como começou a jornada com o RCA assistido por IA?

Por volta de maio de 2024, a equipe do Azure Functions iniciou experimentos com um agent de RCA em parceria com a Microsoft Research. Inicialmente, tratava-se de um utilitário pessoal para escalar a análise de dados no Azure Data Explorer (Kusto). O valor imediato foi claro: embora o agente nem sempre entregasse uma root cause definitiva, ele era capaz de executar consultas multi-facetadas e testar hipóteses, reduzindo o tempo que o engenheiro gastaria navegando em dezenas de tabelas de log.

O que aprendemos com os fluxos agentes (Agentic Workflows)?

A primeira geração desses fluxos era altamente estruturada. Como os modelos de linguagem (LLMs) tinham limitações com queries Kusto complexas, a equipe criou ferramentas atreladas a queries fixas chamáveis via parâmetros.

Ilustração da ferramenta de query Kusto
Fig. 1 kusto query tool

Essa abordagem trazia previsibilidade, mas cobrava um preço alto em flexibilidade e manutenção. Se o incidente fugisse do happy-path desenhado, as ferramentas se tornavam obsoletas, gerando resultados que mal superavam dashboards estáticos.

Fluxo de trabalho do agente
Fig2. Agentic Workflow

Por que a mudança para Coding Agents transformou a operação?

No final de 2025, o cenário mudou com o uso de ferramentas nativas do GitHub Copilot. Com espaços de trabalho (workspaces) compartilháveis — contendo instruções, skills, prompts e configurações de MCP (Model Context Protocol) — a equipe pôde iterar com muito mais agilidade. O grande diferencial desta fase foi a capacidade do agente de "entender" o código, verificar dependências e rodar CLI tools de forma dinâmica, em vez de seguir um fluxo rígido pré-programado.

Ferramenta interna de GitHub Copilot
Fig 3. GitHub Copilot internal tool

O que compõe um material 'pronto para IA'?

A equipe destacou lições valiosas ao construir esses ativos. Para engenheiros e líderes de TI, os principais pontos são:

  1. Preferência por Guidance: Evite o excesso de especificações técnicas; dê diretrizes claras e aponte para a documentação técnica vigente.
  2. Gestão Deliberada de Contexto: Menos, neste caso, costuma ser mais. Evite sobrecarregar o modelo com payloads de logs gigantes.
  3. Uso de Arquivos como 'Durable Memory': Manter um arquivo de plano e checklist permite que o agente se recupere caso perca o contexto da conversa.

Por que a automação em cloud é o próximo passo natural?

Coding agents rodando na máquina do desenvolvedor são ótimos para o fluxo diário, mas falham como solução de nível empresarial por três motivos fundamentais: dependência de intervenção humana (context switching), questões críticas de autenticação (uso de credenciais de usuário em vez de Managed Identity) e falta de um ambiente de execução em regime de sandbox/durabilidade em failover.

Resultados e Feedback Loop

Ao comparar a execução local com um serviço em nuvem (cloud automation path), observou-se que o ganho de qualidade veio da capacidade do ambiente em nuvem de injetar o contexto correto exatamente quando necessário, utilizando LLMs mais fortes e acesso direto aos repositórios e ferramentas de mitigação.

Tendência do uso de agentes ajudando na resolução
Fig 4. Agent Helped Trend – O gráfico mostra como a adoção de agentes de codificação e automação em nuvem aumenta a eficácia da resolução.

Avaliação lado-a-lado usando LLM as Judge
Fig 5. LLM as Judge side-by-side eval para headless coding-agent execution service (azul) vs Azure SRE Agent (verde)

Exemplo da interface de chat do Azure SRE Agent
Fig 6. An Example of the Chat Interface for Azure SRE Agent

Conclusão

O sucesso da automação na investigação de incidentes não depende apenas de escolher o melhor modelo de IA, mas de como o conhecimento especializado da sua organização é traduzido em ativos que a IA pode consumir. A jornada do Azure Functions mostra que, ao combinar automação em nuvem com o rigor de SRE, equipes brasileiras de engenharia podem reduzir drasticamente o tempo de mitigação e focar no que realmente importa: inovação e escalabilidade.


Artigo originalmente publicado em Azure Updates - Latest from Azure Charts.

Gostou? Compartilhe:
Precisa de ajuda?Fale com nossos especialistas 👋
Avatar Walcew - Headset