12 de junho de 20267 min de leitura

Como medir o impacto de tokens da invocação de ferramentas MCP no Microsoft Foundry

vrajakishore

Azure

Banner - Como medir o impacto de tokens da invocação de ferramentas MCP no Microsoft Foundry

Seu agente habilitado para MCP acabou de executar, e as contagens de token não batem. A API informa 773 tokens. O portal mostra 581/141. A visualização de trajetória exibe algo completamente diferente. Antes de abrir um bug report, entenda o que realmente está acontecendo — e como construir um padrão de evidências que torne a contabilidade de tokens corporativa defensável.

Referência rápida

  • MCP (Model Context Protocol): Padrão para conectar modelos de IA a ferramentas e fontes de dados externas.
  • Token: Unidade básica de processamento de texto e faturamento para modelos de IA — aproximadamente 4 caracteres ou três quartos de uma palavra.
  • Trajectory view: Visualização do Microsoft Foundry que mostra o caminho de execução passo a passo de um agente.
  • Token chips: Indicadores inline de contagem de token na UI de traces do Microsoft Foundry.
  • devtunnel: Ferramenta da Microsoft para expor serviços locais à internet para teste.

O Desafio: por que os números de token não batem?

Uma suposição comum é que os spans Execute Tool deveriam expor diretamente os deltas de token faturados para a chamada da ferramenta. Na prática, não é assim que a telemetria costuma ser interpretada nos traces do Microsoft Foundry.

O que geralmente dá errado:

  • Times tratam spans de ferramenta como limites de faturamento.
  • Times comparam números de execuções diferentes como se fossem a mesma transação.
  • Times misturam token chips da thread, colunas de token da tabela de traces e campos de uso da API sem reconciliação.

Cenário típico:

  • Uma execução com MCP mostra atividade de ferramenta e contagem total de token alta no uso da API.
  • Um screenshot da tabela de traces do portal mostra valores diferentes de Tokens In/Out.
  • Revisores concluem que o sistema é inconsistente, quando os dados vêm de response IDs e contextos de execução diferentes.

Análise detalhada do comportamento de tokens

Esta validação utilizou um prompt agent no Microsoft Foundry com uma ferramenta MCP inline que chama um servidor MCP de clima.

Componentes principais:

  • Prompt agent do Microsoft Foundry: weather-mcp-token-test-agent
  • Servidor MCP: endpoint remoto sobre devtunnel
  • Fontes de evidência:
    • Objeto usage da invocação da API (input, output, total de tokens)
    • Tabela de Traces do Microsoft Foundry (Tokens In, Tokens Out)
    • Visualização de trajetória (spans Execute Tool e Chat)

Comportamento observado da arquitetura:

  • A invocação MCP é visível através dos spans mcp_list_tools e execute_tool.
  • A contabilidade de tokens aparece nos metadados de resposta do modelo — especificamente no objeto usage que informa tokens de input (o que você enviou) e tokens de output (o que o modelo gerou).
  • As saídas da ferramenta podem aumentar o contexto subsequente do modelo, o que aumenta o uso de tokens a cada turno.

Evidências visuais da execução:

Imagem 1: Configuração da ferramenta MCP no agente

Imagem 1

Imagem 2: Tabela de Traces com colunas de token

Imagem 2

Imagem 3: Diálogo de trajetória dos Traces

Imagem 3


Como resolver: método de comparação A/B e evidências complementares

  1. Estabeleça dois caminhos de comparação explicitamente:
    • Caminho A: Comparação A/B estrita via API com o mesmo prompt.
    • Caminho B: Evidência de portal (traces) para invocação e colunas de token em nível de trace.
  2. Execute agentes com MCP e baseline (sem ferramenta) com o mesmo prompt.
  3. Capture os valores de uso da API para ambas as execuções:
    • Com MCP: input 581, output 192, total 773
    • Baseline: input 57, output 57, total 114
    • Delta: +659 tokens totais
  4. Capture screenshots do portal para as visualizações de trace-table e trajectory, registrando os valores de token por linha como evidência separada:
    • Exemplo de linhas observadas no portal: 581/141, 581/141, 868/97
  5. Adicione uma declaração de reconciliação no relatório:
    • Os totais A/B da API e as linhas da tabela de traces podem representar response IDs diferentes.
    • São evidências complementares e não devem ser forçadas a um match exato de linha.

Nota sobre variabilidade de token:

  • Contagens absolutas de token podem variar entre execuções devido a diferenças em instruções de sistema, tamanho do payload da ferramenta, comportamento do modelo e formatação da resposta.
  • Mantenha o mesmo prompt e as mesmas condições de baseline ao produzir comparações A/B.

Decisões-chave:

  • Use o uso da API como prova primária de delta.
  • Use traces e trajectory como prova operacional de invocação e comportamento.
  • Mantenha evidências vinculadas por response IDs sempre que possível.

Principais aprendizados e boas práticas

  • Sempre separe as fontes de evidência de token:
    • Campos de uso da API para contabilidade estrita por resposta.
    • Tabela de traces do portal para observabilidade da execução.
    • Spans de trajetória para semântica de invocação.
  • Nunca compare linhas de token de response IDs diferentes sem rotulá-las como execuções separadas.
  • Trate os spans Execute Tool como evidência de invocação, não como verdade de faturamento isolada.
  • Capture execuções baseline e com MCP usando exatamente o mesmo prompt para deltas defensáveis.
  • Preserve screenshots e IDs juntos no mesmo pacote de evidências.
  • Adicione um parágrafo de reconciliação sempre que fontes de evidência mistas forem apresentadas.
  • Para relatórios corporativos, prefira tabelas A/B claras a alegações apenas narrativas.

Conclusão e próximos passos

A invocação de ferramentas MCP no Microsoft Foundry pode aumentar materialmente o uso de tokens por turno, mas esse aumento precisa ser medido com disciplina no manuseio de evidências. Nesta validação, a comparação A/B via API mostrou um aumento de +659 tokens totais para o mesmo prompt quando ferramentas MCP foram ativadas.

Daqui para frente, equipes corporativas devem padronizar um padrão de evidências que combine o uso da API para contabilidade com as visualizações de traces/trajectory para transparência operacional.

Próximos passos recomendados:

  • Engenheiros: Crie um prompt agent no Microsoft Foundry e execute o método A/B em um dos seus prompts de produção. Registre os response IDs com evidências de token.
  • Responsáveis por plataforma/FinOps: Padronize um template de relatório de evidências de token que separe os dados da API dos dados do portal e conecte os resultados ao fluxo de análise de custos do Azure.
  • Autores de launch posts: Referencie o padrão de evidências deste artigo: inclua um screenshot da trace, uma tabela A/B de tokens e uma nota de reconciliação para reduzir ciclos de revisão.

Perguntas Frequentes

  • Por que os números de token da API e do portal do Foundry são diferentes?
    Eles vêm de response IDs e contextos diferentes. A API reporta a contagem por resposta; o portal mostra linhas de traces que podem representar múltiplas interações. São evidências complementares, não um bug.
  • Como devo usar os spans Execute Tool na contabilidade de tokens?
    Trate-os como evidência de invocação, não como verdade de faturamento. O delta real de tokens aparece no objeto usage da API, não nos spans.
  • Qual a melhor prática para relatórios de FinOps com MCP?
    Use sempre comparação A/B com e sem a ferramenta MCP, com o mesmo prompt. Documente os valores de API como prova primária e os traces/trajectory como prova operacional.
  • O que fazer com variações de token entre execuções?
    Espere variações devido a instruções de sistema, payload da ferramenta e comportamento do modelo. Mantenha o mesmo prompt para comparações defensáveis e registre os IDs de resposta.
  • Como reduzir ciclos de revisão em relatórios de token?
    Siga o padrão: um screenshot da trace, uma tabela A/B com valores da API e uma nota de reconciliação explicando que fontes mistas não devem ser forçadas em uma correspondência exata.

Artigo originalmente publicado por vrajakishore em Azure Updates - Latest from Azure Charts.

Gostou? Compartilhe:
Precisa de ajuda?Fale com nossos especialistas 👋
Avatar Walcew - Headset