9 de abril de 20263 min de leitura

Monitorando Agentes de IA no Azure App Service com OpenTelemetry e Application Insights

Banner - Monitorando Agentes de IA no Azure App Service com OpenTelemetry e Application Insights

Banner

O desafio de colocar agentes de IA em produção

No post anterior, discutimos a implementação de uma arquitetura multi-agente para planejamento de viagens no Azure App Service usando o Microsoft Agent Framework (MAF) 1.0 GA. Embora o deploy seja um marco, o verdadeiro desafio operacional começa quando os agentes entram em produção. Times de engenharia enfrentam cenários onde APM tradicional não é suficiente: você precisa entender a fundo o consumo de tokens e a eficácia das chamadas de ferramentas.

Para gestores de TI, a visibilidade sobre quem consome mais recursos e onde o workflow estagna é crucial para o controle de custos e performance, especialmente em sistemas de IA que utilizam modelos com precificação por token.

Otimize sua infraestrutura para IA com visibilidade real

A nova visão: Agents (Preview) no Application Insights

O Azure Application Insights introduziu uma blade dedicada, chamada Agents (Preview), que traz uma camada de inteligência específica para monitorar agentes. A grande vantagem aqui é a conformidade nativa com as convenções semânticas de GenAI do OpenTelemetry. Isso evita que você precise criar dezenas de dashboards customizados do zero para entender o comportamento dos seus LLMs.

  • Filtragem intuitiva: Identifique latência e throughput por cada agente (nosso exemplo, o Travel Planning Coordinator).
  • Gestão de Custos: Visualize o consumo de tokens input e output para evitar surpresas no billing do seu fornecedor de IA.
  • Workflow End-to-End: Debugue falhas complexas vendo exatamente qual tool call ou model call causou um gargalo.

A fundação: OpenTelemetry GenAI Semantic Conventions

Essa visibilidade não é mágica. Ela depende diretamente da implementação das convenções semânticas de GenAI. Ao estruturar seu código para emitir atributos como gen_ai.agent.name, gen_ai.operation.name e tokens de uso, você estabelece um contrato de dados que qualquer backend compatível — não apenas o Azure Monitor — consegue processar.

Visão de Agentes

Instrumentação de dois níveis

Para ter uma observabilidade completa, recomendamos a instrumentação em duas camadas:

  1. Nível IChatClient (LLM): Focado puramente na performance do modelo. Ao envolver seu client com .UseOpenTelemetry(), você captura tokens e latência bruta do provider.
  2. Nível Agent (Contexto): Onde o MAF emite spans trazendo a identidade do agente. Isso é vital para a separação de responsabilidades e para entender qual agente está falhando no pipeline.

Manter ambos ativos pode gerar uma leve redundância de logs, mas é o cenário ideal para um troubleshooting eficiente quando o custo de falha da sua aplicação de IA for alto.

Conclusão e Próximos Passos

Integrar essas práticas não apenas melhora a visibilidade, mas empodera o time de engenharia a realizar rollbacks ou ajustes de prompt com dados, não com palpites. A portabilidade do OpenTelemetry, junto com a integração nativa no Azure App Service através apenas de ambiente de configuração ou uma linha de código AddAzureMonitor(), torna a adoção desses padrões um diferencial competitivo para empresas brasileiras que buscam estabilidade e escalabilidade em suas workloads de IA.


Artigo originalmente publicado em Azure Updates - Latest from Azure Charts.

Gostou? Compartilhe:
Precisa de ajuda?Fale com nossos especialistas 👋
Avatar Walcew - Headset