TL;DR: O artigo analisa as novidades do Microsoft Foundry no Build 2026 que unificam tracing, avaliação multi-turn, otimização contínua e ROI de agentes de IA. A principal conclusão é que a plataforma agora oferece um loop completo de observabilidade para qualquer framework (LangChain, OpenAI SDK, etc.), permitindo que equipes brasileiras monitorem, avaliem e comprovem o valor de agentes em produção — essencial para escalar com segurança e justificar investimentos.
Colocar um agente de IA em produção é a parte fácil. Mantê-lo preciso, seguro e auditável em operação é onde a maioria dos times empaca. Agentes são não-determinísticos: mudam de comportamento conforme modelos são atualizados, ferramentas mudam e padrões de tráfego evoluem — e essa deriva acontece silenciosamente, muito depois da demo. A observabilidade end-to-end, cobrindo todo o ciclo de desenvolvimento, é o que fecha essa lacuna: ver cada passo que o agente dá, avaliar qualidade e segurança contra critérios definidos, otimizar o que não funciona e provar o valor de negócio do que funciona.
Na Build 2026, a Microsoft anunciou que tracing e avaliações no Microsoft Foundry atingiram disponibilidade geral, com agentes hospedados em breve. Isso significa que qualquer equipe construindo no Foundry pode contar com esses recursos em produção hoje. Mas a grande novidade é a extensão dessa base para qualquer framework de agente, qualquer destino de deployment e todo o loop de Agent DevOps — da primeira chamada de inferência ao dashboard de ROI que o CFO vai pedir.
Este post resume as capacidades principais apresentadas na sessão BRK252 — From observability to ROI for AI agents on any framework: interoperabilidade, evaluadores de rubrica sensíveis ao contexto com suporte a multi-turn, observabilidade code-first, otimização e ROI de negócio.
Por que a observabilidade é a base para agentes confiáveis?
Software tradicional é determinístico: mesma entrada, mesma saída, mesmo caminho de código. Agentes não são. O mesmo prompt pode seguir três rotas de ferramentas diferentes hoje e uma quarta amanhã quando o modelo ou o prompt for atualizado. Isso torna a stack de confiabilidade padrão — logs, métricas e taxas de erro — insuficiente. Você também precisa saber o que o agente decidiu, se essa decisão foi boa e se está melhorando ou piorando ao longo do tempo.
A observabilidade do Foundry é construída em torno de quatro capacidades usadas continuamente no ciclo de vida do agente:
- Trace — telemetria end-to-end para cada etapa (prompt, chamada de modelo, invocação de ferramenta, salto para sub-agente)
- Evaluate — pontuação de qualidade, segurança e conclusão de tarefa em granularidade single-turn e multi-turn
- Monitor — detecção de problemas em tempo real com alertas e dashboards via Azure Monitor
- Optimize — transformar sinal de produção em melhorias de agente ranqueadas e baseadas em evidências
Como a interoperabilidade permite observar qualquer agente?
Agentes não são mais construídos em uma única stack. Um sistema de produção pode usar Microsoft Agent Framework para orquestração, LangChain para retrieval, OpenAI SDK para um workflow lateral e um agente hospedado no Foundry para uma rotina longa. Desenvolvedores não deveriam ter que escolher entre o framework que querem e a observabilidade que precisam.
Tracing & evaluations — any agent framework | Public Preview. O tracing e as avaliações de nível de produção do Foundry agora se estendem a agentes construídos em LangChain, LangGraph, OpenAI SDK, Microsoft Agent Framework e qualquer framework customizado via OpenTelemetry. Cada chamada de ferramenta, invocação de LLM e handoff aparece em uma única visão de trace — independentemente de qual framework a produziu. Execute avaliações estruturadas nesses traces e obtenha sinais de qualidade consistentes em toda a frota de agentes.
Dica do desenvolvedor: Se seus agentes já emitem spans OpenTelemetry, você já está quase lá. Aponte seu exporter OTel para o Foundry, e tracing e avaliações funcionam no framework que você já usa.
Como a observabilidade cobre todo o ciclo de vida do Agent DevOps?
Agentes falham de forma diferente do software tradicional — o contexto deriva, o raciocínio vagueia, a qualidade se deteriora ao longo de uma conversa em vez de quebrar em uma única chamada. Capturar isso exige observabilidade como um loop contínuo: tracing, avaliação e diagnóstico vivendo dentro do seu workflow — o editor e CLI que você já usa, não um dashboard separado.
Esta versão costura esse loop de ponta a ponta:
-
AZD observability dev experience | Public Preview. Tracing, logging e eval insights agora integrados diretamente ao Azure Developer CLI (azd). Crie um novo agente hospedado e a observabilidade já vem ativada por padrão — trace sua primeira execução, veja resultados de avaliação inline e diagnostique falhas sem sair do terminal ou VS Code.
-
User simulation | Public Preview. Gerar conversas de teste realistas manualmente não escala. User simulation produz automaticamente conversas multi-turn e cenários de borda para você testar seu agente antes de ele ver um usuário real.
-
Multi-turn evaluation | Public Preview. Avaliações single-turn perdem os modos de falha que só aparecem quando o contexto se acumula: deriva de tom, perda de objetivos, contradições e regressões de segurança em conversas longas. A avaliação multi-turn pontua a qualidade do agente em interações completas — capturando continuidade de contexto, consistência de raciocínio e sucesso na tarefa final.
-
Rubric evaluator | Public Preview. “Bom” é diferente para um agente de histórico de fornecedor, um de suporte ao cliente e um de conformidade. Rubric é um novo tipo de evaluator que gera critérios de avaliação sensíveis ao contexto a partir do comportamento pretendido do agente — ponderados entre sucesso da tarefa, tom, segurança, custo e latência — e os executa junto com os evaluadores nativos de segurança e qualidade do Foundry. O resultado é um scorecard unificado que pode ser executado antes do deployment e continuamente em produção.

-
Evaluations with intelligent trace sampling | Public Preview. Avaliar todos os traces de produção é desperdício; avaliar nenhum é arriscado. Intelligent trace sampling executa avaliações automaticamente contra uma amostra curada de traces de produção ao vivo, usando filtragem inteligente para surfar as interações mais ricas em sinal. Monitoramento contínuo de qualidade sem a conta de avaliar cada requisição.
-
Trace replay and visualization | Public Preview. Percorra visualmente qualquer trace de execução de agente — prompt, decisão, chamada de ferramenta, saída do modelo — e reproduza-o para entender exatamente como um resultado foi produzido. Depurar agentes multi-step agora é muito mais simples.
-
Traces to dataset | Public Preview. Traces de produção são os dados de teste mais fiéis que você tem. Traces to dataset converte-os em datasets de avaliação estruturados que você pode usar offline — fechando o loop entre o que os usuários realmente fazem e o que suas avaliações cobrem.
Dica do desenvolvedor: Conecte o trace replay ao seu processo de revisão de incidentes. A maneira mais rápida de corrigir uma regressão de agente é reproduzir o trace exato que quebrou e reexecutá-lo com a correção candidata — não reproduzir a falha do zero.
Como a otimização transforma avaliações em ações?
Traces dizem o que aconteceu. Avaliações dizem se foi bom. Otimização diz o que mudar em seguida — e prova que a mudança realmente ajudou.
Agent optimizer in Foundry Agent Service | Private Preview (public preview em breve). Melhorar um agente hoje é tentativa e erro: publique um ajuste, observe falhas dos usuários, tente outro prompt, torça. O Agent Optimizer substitui esse ciclo por um loop governado e baseado em evidências. Ele lê os prompts e skills atuais do agente, busca configurações que aumentam a qualidade em seus cenários e restrições, e exibe candidatos ranqueados com diffs completos, linhagem, trilha de auditoria e rollback.
Cada candidato é avaliado contra sua rubrica e mostrado lado a lado — exatamente o que melhorou, o que regrediu e por quê. Promova o vencedor; novos traces alimentam a avaliação. Esse é o loop fechado observe → evaluate → optimize → deploy, executando continuamente.
Como provar o ROI dos agentes no Foundry?
Assim que os times conseguem observar, avaliar e otimizar agentes continuamente, a próxima pergunta surge: vale a pena o que esse agente custa? Antes, essa pergunta exigia uma planilha e muita intuição. Agora, a Microsoft está substituindo ambas.
ROI for agents in Foundry | Private Preview. O ROI para agentes traduz o custo de executar um agente no valor de negócio que ele cria — taxas de conclusão de tarefas, tempo economizado e eficiência de custo — e os mostra lado a lado no portal do Foundry e via API. Compare versões, acompanhe tendências diárias e clique nos traces de baixo ROI para depurar. Stakeholders finalmente têm os dados para justificar investimentos e priorizar o que melhorar em seguida.
“Ao combinar avaliações e tracing no Microsoft Foundry com o Azure Monitor, transformamos IA em um sistema de nível empresarial, pronto para produção, com observabilidade integrada e otimização contínua — permitindo evolução contínua no ciclo de vida do agente e acelerando a visão do Smart AI Agent® da NTT DATA.” — Yuji Shono, Head of the Global AI Office, NTT DATA Group
O loop completo, em uma plataforma
Cada um desses anúncios se sustenta por si só. Conectados, eles formam o loop contínuo de observabilidade que desenvolvedores e operadores pediam:
- Interoperabilidade dá liberdade de framework e um lugar para ver tudo.
- Observabilidade spanning todo o ciclo de vida do Agent DevOps torna tracing, avaliações multi-turn, rubric scoring e sampling inteligente parte do desenvolvimento diário.
- Otimização fecha o loop do sinal de produção para melhorias de agente baseadas em evidências.
- ROI transforma essas melhorias em um business case que stakeholders podem usar.
Tudo no mesmo plano de controle do Foundry, com Azure Monitor para alertas e sinais de infraestrutura, e OpenTelemetry como linguagem comum subjacente.
Perguntas Frequentes
-
Quais frameworks de agentes são suportados pelo Foundry para observabilidade?
O Foundry agora suporta LangChain, LangGraph, OpenAI SDK, Microsoft Agent Framework e qualquer framework customizado via OpenTelemetry. Isso significa que times brasileiros que usam stacks híbridas podem consolidar o tracing de todos os agentes em um único painel. -
Como a avaliação multi-turn detecta problemas que a avaliação single-turn não captura?
Avaliações single-turn ignoram falhas que surgem com o acúmulo de contexto em conversas longas, como deriva de tom, contradições e regressões de segurança. A avaliação multi-turn pontua a qualidade do agente em interações completas, capturando consistência de raciocínio e sucesso na tarefa final. -
O que é o Agent Optimizer e como ele ajuda a melhorar agentes continuamente?
O Agent Optimizer substitui o ciclo manual de tentativa e erro por um loop automatizado: ele lê os prompts e skills atuais do agente, busca configurações que aumentam a qualidade com base em sua rubrica, e exibe candidatos ranqueados com diffs, linhagem e rollback. Cada melhoria é validada por novas avaliações. -
Como o ROI de agentes é calculado no Foundry e quais métricas são usadas?
O ROI traduz o custo de execução do agente em valor de negócio: taxas de conclusão de tarefas, tempo economizado e eficiência de custo. Os dados são exibidos no portal Foundry e via API, permitindo comparar versões, acompanhar tendências diárias e depurar traces de baixo ROI. -
A observabilidade do Foundry funciona com agentes hospedados em outras nuvens?
Sim, desde que os agentes emitam spans OpenTelemetry. Basta configurar o exporter OTel para apontar para o Foundry. Isso é especialmente relevante para empresas brasileiras em cenários multi-cloud ou que mantêm parte da infraestrutura on-premises.
Artigo originalmente publicado por Sebastian Kohlmeier em Azure Updates - Latest from Azure Charts.