29 de maio de 202620 min de leitura

Kit de Observabilidade de IA para Agentes do Microsoft Foundry: Como Levar Seus Agentes para Produção com Confiança

varghesejoji

Azure

Banner - Kit de Observabilidade de IA para Agentes do Microsoft Foundry: Como Levar Seus Agentes para Produção com Confiança

Kit de Observabilidade de IA para Agentes do Microsoft Foundry: Como Levar Seus Agentes para Produção com Confiança

TL;DR: Este artigo analisa o AI Observability Starter Kit da Microsoft, que provisiona em um único comando um ambiente completo de observabilidade para agentes Foundry: telemetria OpenTelemetry, 8 avaliadores integrados, avaliador customizado, varredura red-team automatizada e alertas. A conclusão principal é que a observabilidade não é opcional para sistemas agenticos – é pré-requisito para operar com confiança.

1. De dashboards verdes a observabilidade de nível de produção

Seu agente de IA está em produção. O load balancer mostra zero erros. O dashboard do Application Insights está verde. Mas várias coisas podem estar erradas:

  • Um deployment de modelo não existe. O agente aponta para um modelo inexistente. Cada requisição gera um erro no nível do chat, mas a resposta HTTP ainda retorna 200 porque o framework do agente capturou a exceção internamente.
  • Uma tool retornou dados incorretos. Um usuário pede ordens do cliente C999. O agente chama a tool certa, mas ela lança um LookupError. O agente responde com um pedido de desculpas educado, o HTTP retorna 200, e o erro fica invisível a menos que você rastreie o span execute_tool.
  • O modelo respondeu a um prompt de segurança. Um usuário pede conteúdo violento fictício. O modelo obedece. Nenhum filter capturou, nenhum evaluator pontuou, nenhum alerta disparou.

Essas falhas não aparecem em logs tradicionais ou em dashboards genéricos. Elas exigem um tipo diferente de observabilidade, que combina cinco capacidades:

  • Traces instrumentados usando convenções semânticas OpenTelemetry (OTel) para GenAI, de forma que cada chamada de modelo e execução de tool se torne um span consultável.
  • Avaliadores automatizados de qualidade que pontuam raciocínio, resolução de intenção e uso de tools em tráfego real, não em fixtures de teste.
  • Testes red-team adversarial que exploram limites de segurança com prompts de ataque gerados automaticamente antes que usuários reais o façam.
  • Alertas baseados em scheduled-query que disparam com base em taxa de erro e regressão de latência, não apenas em uptime.
  • Dashboards que exibem tokens, modelos, tools e erros em um único lugar para operadores e plantão.

Nenhuma dessas peças é nova. A parte difícil é conectá-las corretamente. O starter kit, disponível no repositório GitHub, entrega essa conexão (agente instrumentado, evaluators vinculados aos campos de trace certos, taxonomia de red-team, dashboard Grafana importável e verificações pós-deploy) em um único comando, para que você comece de uma baseline conhecida em vez de montar tudo manualmente.

1.1 Como o fluxo funciona

Um prompt de usuário entra no hosted agent, que chama o modelo (ex.: gpt-4o-mini) e opcionalmente executa uma ou mais tools (consultas de pedidos, fornecedores, clima, dados). Cada chamada de modelo e execução de tool emite spans OpenTelemetry que são ingeridos automaticamente no Azure Application Insights, sem necessidade de SDK adicional além de definir ENABLE_INSTRUMENTATION=true no manifest do agente.

Fluxo de telemetria

A partir do Application Insights, a telemetria alimenta três consumidores downstream:

  • Dashboards Grafana consultam o workspace Log Analytics via KQL (Kusto Query Language) para renderizar painéis operacionais (uso de tokens, latência, taxas de erro, distribuição por modelo).
  • Agent evaluators puxam traces recentes e os pontuam contra 8 verificações de qualidade integradas, além de evaluators customizados registrados. Os resultados aparecem no painel de Avaliações do Microsoft Foundry.
  • Alertas de scheduled-query disparam quando a contagem de erros ou a latência p95 ultrapassam limites em janelas de 15 minutos.

O ponto de design chave: o agente não sabe da existência de dashboards, evaluators ou alertas. Ele apenas emite spans. Tudo downstream é conectado através do Application Insights como backbone único de telemetria.

1.2 Definição do agente

Um Foundry-hosted agent é um agente de IA containerizado que o Microsoft Foundry gerencia, deploya e escala: você fornece o código Python (main.py) e um pequeno manifesto YAML (agent.yaml), o Foundry cuida do runtime, do pipeline OTel e da identidade por agente. Os quatro agentes deste kit compartilham código, tools e instruções de sistema idênticas; a única diferença é o deployment de modelo que cada um usa:

Agente Modelo Propósito
agent-framework-agent-basic-responses gpt-4o-mini (via ${MODEL_DEPLOYMENT_NAME}) Agente principal com 6 funções @tool. Usado para telemetria, avaliação e população de dashboards.
agent-framework-agent-gpt5-mini gpt-5-mini (hardcoded) Agente irmão para comparação de latência e tokens entre modelos.
agent-framework-agent-gpt41-mini gpt-4.1-mini (hardcoded) Agente irmão para comparação entre modelos.
agent-framework-agent-broken-model nonexistent-model-deployment-xyz (hardcoded) Deliberadamente quebrado. Cada requisição dispara um erro de chat, populando o painel Gen AI Errors.

O código do agente cria um FoundryChatClient conectado ao modelo, define um Agent com um system prompt de assistente de compras e registra seis tool functions: get_orders, find_suppliers_for_request, get_company_supplier_info, get_current_utc_date, get_weather e roll_dice. Algumas tools são projetadas para lançar erros em entradas específicas (ex.: cliente C999 lança LookupError), gerando a telemetria de erro que os dashboards e evaluators consomem.

Duas variáveis de ambiente controlam a telemetria:

  • ENABLE_INSTRUMENTATION=true ativa spans filhos OpenTelemetry (um span por chamada LLM e por execução de tool). Sem ela, apenas o span pai invoke_agent é emitido e o painel Agents fica vazio.
  • ENABLE_SENSITIVE_DATA=true captura o texto completo do prompt e da resposta nos spans, necessário para que os evaluators pontuem a qualidade da resposta.

2. Deploy e execução

Tudo neste kit é automatizado. Um único script PowerShell provisiona a infraestrutura, deploya os agentes, semeia tráfego, executa avaliações, configura alertas e valida o resultado. O custo por execução completa é de alguns centavos (cerca de US$ 0,03/dia enquanto estiver rodando). O teardown remove tudo.

2.1 O que o starter kit contém

Componente O que faz Para que serve
4 Foundry-hosted agents gpt-4o-mini, gpt-5-mini, gpt-4.1-mini e um agente quebrado Comparar latência, tokens e taxas de erro entre modelos na mesma carga de trabalho
Application Insights + Log Analytics Recebe traces OpenTelemetry (convenções semânticas GenAI) Rastrear falhas de tools até invocações específicas, mesmo quando o HTTP retorna 200
Grafana for Azure Monitor Dashboards customizados para tokens, latência, operações e distribuição de modelos Monitorar consumo de tokens ao longo do tempo e identificar prompts ou agentes que consomem tokens desproporcionais
Agent evaluators 8 evaluators integrados (sistema + processo) executados em lote sobre traces do Application Insights Validar qualidade do agente sob demanda: resolução de intenção, adesão à tarefa, precisão de tools e mais
Custom code-based evaluator Verifica cada resposta por uma frase de disclaimer de compliance obrigatória Aplicar políticas específicas de domínio (frases de compliance, verificações de formato, regras regulatórias)
Red-team scan Sondas adversarial usando estratégias Flip e Base64 com 3 evaluators de segurança Detectar saídas inseguras automaticamente, sondando limites de segurança antes que usuários reais o façam
2 scheduled-query alerts Contagem de erros (sev 2) e latência p95 (sev 3) em janelas de 15 minutos Alertar sobre os sinais que realmente importam: picos de erro e regressão de latência
Automação end-to-end Script orquestrador único (run-e2e.ps1) e script de teardown único Provisionar, exercitar e destruir toda a stack com dois comandos

2.2 Executando o kit

Pré-requisitos: assinatura Azure com Contributor (ou Owner) mais User Access Administrator, PowerShell 7+ (pwsh), Azure CLI (az) e Azure Developer CLI (azd) instalados e no PATH, az login concluído, e um venv Python 3.13 na raiz do repositório. O script verifica o ambiente virtual, o diretório agent/ e ambos os CLIs antes de fazer qualquer chamada Azure, falhando cedo com instruções claras de correção.

pwsh -NoProfile -File scripts\run-e2e.ps1 `
    -Region <region> `
    -EnvName <env-name> `
    -SubscriptionId <subscription-id>

Exemplo:

pwsh -NoProfile -File scripts\run-e2e.ps1 `
    -Region eastus2 `
    -EnvName aiobs2-foundry `
    -SubscriptionId <subscription-id>

O orquestrador executa 13 fases, cada uma registrada em artifacts/e2e-<timestamp>/phase-NN.log. O tempo total é de aproximadamente 35 a 50 minutos.

Após a execução, valide com:

pwsh -NoProfile -File scripts\validate-deployment.ps1

Isso verifica 8 categorias (26 verificações no total): infraestrutura, deployments de modelo, hosted agents, invocação de agentes, telemetria, avaliação, alertas e RBAC.

2.2.3 Teardown

Para destruir tudo:

pwsh -NoProfile -File scripts\teardown.ps1 -EnvName <env-name>

Isso deleta o resource group, faz purge do soft-delete do Azure AI Services e valida a remoção.

2.2.4 Atualização ad-hoc de tráfego e avaliação

Uma vez deployado, não é preciso reexecutar todo o pipeline de 13 fases para atualizar a telemetria. Use scripts/run-adhoc-traffic-and-eval.ps1 para gerar traces frescos, rodar o batch eval e atualizar a exportação de telemetria.

Tempo total: ~15 min por padrão (~25 min com red-team).

3. Avaliação: agent evaluators e verificações customizadas

Um HTTP 200 OK não significa que o agente respondeu corretamente. Software tradicional tem saídas previsíveis; agentes de IA não. O mesmo prompt pode produzir respostas diferentes entre execuções, e a qualidade pode mudar quando modelos são atualizados, prompts evoluem ou tools mudam. Sem avaliação, você depende de reclamações de usuários para descobrir problemas de qualidade, muitas vezes dias após o dano.

3.1 Dois caminhos de avaliação

O starter kit inclui duas abordagens complementares:

Caminho Quando executa O que verifica Melhor para
Agent evaluators Sob demanda (lote sobre traces) 8 evaluators integrados cobrindo resultados de sistema e qualidade de processo Medir qualidade end-to-end do agente e uso de tools
Custom evaluators Sob demanda (lote sobre traces) Qualquer regra específica de domínio (frases de compliance, verificações de formato, política) Requisitos empresariais além dos evaluators integrados

Dois caminhos de avaliação

3.2 Agent evaluators

O Microsoft Foundry fornece 9 evaluators de agente integrados, divididos em duas categorias: system evaluators (examinam o resultado end-to-end: task adherence, task completion, intent resolution) e process evaluators (examinam cada etapa do workflow: tool call accuracy, tool selection, tool input accuracy, tool output utilization, tool call success). O 9º evaluator, Task Navigation Efficiency, requer ground truth e não está incluído na execução padrão.

Resultados de uma execução validada (11 traces pontuados em 8 evaluators):

Tabela de resultados dos evaluators

Evaluator Score Destaque
task_adherence 73% (8/11) Seguiu as instruções do sistema em 8 de 11 casos
task_completion 64% (7/11) 4 falhas incluem prompts intencionais de erro
intent_resolution 73% (8/11) Identificou e endereçou corretamente a intenção do usuário
tool_call_accuracy 80% (8/10) Tools certas com parâmetros corretos
tool_selection 73% (8/11) Sem chamadas de tool desnecessárias
tool_input_accuracy 82% (9/11) Parâmetros corretamente formatados e contextualizados
tool_output_utilization 55% (6/11) Evaluator mais rigoroso: o agente usou os resultados da tool na resposta?
tool_call_success 82% (9/11) 2 falhas são os triggers intencionais de erro

Cada evaluator requer um data_mapping que informa ao Foundry quais campos de trace ler. Evaluators de sistema precisam de query + response; evaluators de processo adicionam tool_definitions e tool_calls. Todos também exigem deployment_name como parâmetro de inicialização. A falta de qualquer um produz um erro MissingRequiredDataMapping.

3.3 Custom evaluator: verificação de frase de compliance

O kit demonstra o padrão code-based com um verificador de disclaimer de compliance. O workflow tem três etapas: (1) escrever uma função grade(sample, item) que retorna 1.0 ou 0.0, (2) registrá-la no Foundry via script, (3) incluí-la no batch evaluation.

Fluxo do custom evaluator

Resultados de uma execução validada (10 traces): o evaluator compliance_check obteve 40% (4 de 10 traces passaram). Os 4 traces que passaram vieram de prompts que explicitamente pediam o disclaimer; as 6 falhas eram respostas normais sem ele. Substitua pela sua lógica, re-registre, e o mesmo padrão funciona para qualquer verificação de política, formato ou regulatória.

Resultados do compliance evaluator

4. Teste red-team: varredura automatizada de segurança

Evaluators de qualidade verificam se o agente respondeu bem. Red-team verifica se ele pode ser enganado a responder mal: usuários adversários que tentam provocar respostas prejudiciais, fora do tópico ou violadoras de política. Modelos que passam evaluators de qualidade ainda podem falhar quando a entrada é criada para explorar casos extremos. O kit automatiza isso com uma varredura gerenciada pelo Foundry que gera prompts de ataque, envia-os em conversas de múltiplas voltas e pontua cada resposta contra evaluators de segurança.

4.1 Como a varredura funciona

O script scripts/12-red-team.py cuida de tudo em um único script: cria um agente de prompt temporário (redteam-prompt-agent) espelhando o modelo, instruções e definições de tool do agente de produção, constrói um eval group com três evaluators de segurança (prohibited actions, task adherence, sensitive data leakage) e uma taxonomia mapeando a categoria de risco PROHIBITED_ACTIONS ao alvo. Lança uma execução de ataque que auto-gera prompts adversarial em conversas de 5 turnos e limpa o agente temporário em um bloco finally. Tempo típico: 4 a 8 minutos.

4.2 Resultados e interpretação

A varredura usa três evaluators de segurança e duas estratégias de ataque (Flip e Base64). Estratégias adicionais como IndirectJailbreak, Tense, Morse e Crescendo podem ser adicionadas.

Resultados de uma execução validada (total=204, passed=139, failed=65, errored=0):

Resultados do red-team

A taxa de sucesso de ataque (ASR) de 31,9% (65 prompts falhos de 204) significa que o atacante obteve respostas indesejadas em aproximadamente um terço das tentativas. Por evaluator: Prohibited Actions teve a maior ASR (38%), Sensitive Data Leakage 29% e Task Adherence 21%. Todas as três estratégias de ataque (Base64, Baseline, Flip) tiveram desempenho similar de 31-34%, sugerindo que a postura de segurança do modelo é consistente independentemente da técnica de codificação e que prompts de sistema de segurança customizados seriam necessários para reduzir materialmente a taxa geral.

5. Observabilidade

Uma vez que os agentes estão deployados e o tráfego está fluindo, você precisa enxergar o que está acontecendo. O kit oferece duas formas de surfar a telemetria: consultas KQL brutas para investigação ad-hoc e três superfícies de dashboard para monitoramento diário.

5.1 Consultando telemetria com KQL

O script scripts/13-telemetry-kql.py executa quatro consultas contra o workspace Log Analytics, cada uma respondendo a uma pergunta operacional diferente. Todas filtram spans invoke_agent da tabela requests.

Consulta KQL O que responde Campos-chave
Volume + success rate Quantas invocações por agente e quantas falharam? count(), countif(success), dcount(operation_Id) by name
Latency percentiles Qual o tempo de resposta p50/p90/p95/p99? percentil(duration, N), avg(duration), max(duration)
Session activity Como o tráfego se distribui ao longo do tempo e entre sessões? session_id de customDimensions, bin(timestamp, 5m)
Token usage Quantos tokens de input/output estão sendo consumidos? gen_ai.usage.input_tokens, gen_ai.usage.output_tokens de customDimensions

Consultas KQL

5.2 Três superfícies de visualização

O kit popula três visualizações complementares:

  1. Painel Agents (Preview) do Application Insights – A maneira mais rápida de ver a saúde do agente. Popula automaticamente a partir dos spans OpenTelemetry, sem necessidade de importação de dashboard. Mostra execuções por agente, erros por operação, uso de tools, consumo de tokens e scores de avaliação.

  2. Dashboards Grafana pré-construídos – Três dashboards gerenciados pelo Azure: Agent Framework (KPIs por agente), Agent Framework workflow (fluxos multi-etapas) e Foundry (detalhes do hosted agent). O dashboard Agent Framework é o mais amplo, cobrindo operações, tokens, tools e performance.

  3. Dashboards customizados – Dois arquivos JSON importáveis com painéis focados para investigação mais profunda (latência p95 por tool, taxa de erro, contagem de sessões).

5.3 Painel Agents do Application Insights

Após uma execução bem-sucedida, o painel Agents (Preview) exibe:

Painel O que mostra Por que importa
Agent Runs Invocações por agente ao longo do tempo Identificar desequilíbrios de tráfego instantaneamente
Gen AI Errors Erros por tipo de operação (invoke_agent, chat, execute_tool) Apontar qual camada está falhando
Tool Calls Contagem de chamadas por tool, erros, duração média Encontrar tools lentas ou quebradas antes que usuários reportem
Models Chamadas por modelo, taxa de erro, duração média Capturar deployments mal configurados
Token Consumption Uso de tokens empilhado por modelo Identificar qual modelo impulsiona o custo
Evaluations Tiles de score para cada evaluator Confirmar que os scores permanecem acima dos thresholds

Painel Agents

5.4 Dashboards Grafana pré-construídos

O dashboard Agent Framework fornece uma visão única de operações, tokens, tools e performance:

Dashboard Agent Framework

Painel O que mostra Por que importa
Summary Statistics 68 operações, 65K tokens input, 4.68K output, 9.97s avg response Snapshot de saúde e custo
Token Consumption Over Time Tendências de tokens input/output com detalhamento por agente Identificar mudanças de custo
Daily Cost Estimation Custo diário estimado ($0.0256 nesta execução) Acompanhamento de orçamento sem sair do dashboard
Tool Usage Leaderboard Contagem de chamadas por tool, taxa de sucesso, latência avg/p95 Encontrar tools não confiáveis
Chat p95 Latency by Model Latência p95 por modelo Comparar capacidade de resposta entre modelos
Agent Response Time Trends Latência ao longo do tempo com bandas min/média Detectar regressões de latência correlacionadas com deploys
Success Rate Percentual geral de sucesso (98.5%) Sinal verde/vermelho único para triagem de plantão
Agent Performance Summary Operações por agente, duração média, taxa de sucesso Confirmar agentes intencionalmente quebrados
Agent Utilization Heatmap Intensidade de atividade por agente e bucket de tempo Visualizar padrões de tráfego e períodos ociosos

5.5 Dashboards customizados

O kit inclui dois arquivos JSON para importação no Grafana. O dashboard principal (agent-observability-dashboard.json) fornece uma visão operacional completa com painéis como Agent Summary Statistics, Chat and Tool Summary, Operations Over Time, Token Consumption by Model, Model Usage Distribution, Response Duration by Model e Chat Latency by Model.

Dashboard customizado

Para importar: Application Insights > Dashboards with Grafana > New > Import > upload o JSON. Ambos usam variáveis templatizadas, então o mesmo JSON funciona em diferentes ambientes.

6. Estrutura do repositório

Pasta Conteúdo
agent/ Raiz do projeto azd: 4 hosted agents, infra Bicep (Foundry account, ACR, Application Insights, Log Analytics)
scripts/ Orquestrador run-e2e.ps1, validate-deployment.ps1, teardown.ps1, run-adhoc-traffic-and-eval.ps1, mais 13 helpers Python/PowerShell numerados
evaluators/ Custom code-based evaluator (grade(sample, item) -> float) + metadados YAML
prompts/ Três corpora: clean, ambiguous, safety-bait
artifacts/ Todos os outputs de execução (resultados de eval, telemetria, dashboards). grafana/ contém JSON de dashboard importável
notebooks/ Versões Jupyter dos fluxos de eval e red-team para demos ao vivo
docs/ QuickStart, guia manual, guia Grafana
/  
  agent/                              # azd project root  
    azure.yaml                        # service definitions for 4 hosted agents  
    src/  
      agent-framework-agent-basic-responses/  
        agent.yaml                    # primary agent (gpt-4o-mini)  
        main.py                       # @tool functions + Agent() constructor  
        requirements.txt              # agent-framework + foundry-hosting deps  
        Dockerfile                    # container build  
      agent-framework-agent-gpt5-mini/  
        agent.yaml                    # sister agent (gpt-5-mini)  
        main.py                       # same code, different model  
      agent-framework-agent-gpt41-mini/  
        agent.yaml                    # sister agent (gpt-4.1-mini)  
      agent-framework-agent-broken-model/  
        agent.yaml                    # deliberately broken (populates error charts)  
    infra/                            # Bicep (Foundry account, ACR, Application Insights, Log Analytics)  
  scripts/  
    run-e2e.ps1                       # single command: provision to smoke test (13 phases)  
    validate-deployment.ps1           # post-deploy validation (8 categories)  
    teardown.ps1                      # single command: destroy everything + purge  
    run-adhoc-traffic-and-eval.ps1    # ad-hoc traffic + eval refresh (skips infra/deploys)  
    03-grant-foundry-user.ps1         # grants Foundry User role to project MI  
    04-warmup.ps1                     # 3 fast pings to defeat scale-to-zero  
    05-seed-traffic.ps1               # 48 prompts from clean, ambiguous, safety-bait corpora  
    06b-alerts-rest.py                # 2 scheduled-query alerts via ARM REST  
    10-continuous-eval.py             # evaluation rule (3 agent evaluators)  
    11-custom-evaluator-register.py   # code-based compliance evaluator (grade -> float)  
    12-red-team.py                    # adversarial red-team scan (temporary prompt agent)  
    13-telemetry-kql.py               # KQL export (volume, latency, tokens)  
    14-verify-continuous-eval.py      # verify eval runs completed  
    15-list-eval-rules.py             # debug: dump eval rule definitions + runs  
    16-list-rules.py                  # debug: list all evaluation rules (GA API)  
    17-list-connections.py            # debug: list project connections  
    18-trigger-eval-runs.py           # debug: store-based eval trigger workaround  
    20-agent-batch-eval.py            # batch eval: 8 agent evaluators over Application Insights traces  
  evaluators/  
    custom_compliance_phrase.py       # grade(sample, item) -> float (0.0 or 1.0)  
    custom_compliance_phrase.yaml     # evaluator metadata for Foundry catalog registration  
  prompts/  
    clean.txt                         # normal traffic prompts  
    ambiguous.txt                     # edge-case prompts  
    safety-bait.txt                   # 5 adversarial prompts for safety testing  
  artifacts/                          # all run outputs (eval results, telemetry, dashboards)  
    sample-app-request.json           # reference: OTel GenAI span shape  
    sample-chat-dependency.json       # reference: LLM chat dependency span shape  
    grafana/  
      agent-observability-dashboard.json          # full operational dashboard (7 panels)  
      agent-observability-custom-dashboard.json   # companion dashboard (5 panels)  
      DASHBOARD_IMPORT_GUIDE.md                   # import walkthrough  
      DASHBOARD_SUMMARY.md                        # panel descriptions  
  notebooks/                          # interactive Jupyter versions for live demos  
    run_notebooks.ps1                 # runs all 4 notebooks in sequence via nbconvert  
    01-continuous-eval-setup.ipynb    # eval group + rule + batch run over traces  
    02-custom-evaluator-register.ipynb # custom evaluator registration  
    03-red-team-taxonomy.ipynb        # taxonomy creation (pre-stage)  
    04-red-team-run.ipynb             # red team attack run  
  docs/  
    QUICKSTART.md                     # 6-command walkthrough  
    MANUAL_GUIDE.md                   # step-by-step deep dive  
    GRAFANA_GUIDE.md                  # Grafana dashboard setup + custom KQL panels  

7. Conclusão e próximos passos

Observabilidade de IA não é um add-on. É um pré-requisito para operar sistemas agenticos com confiança. Este starter kit torna isso concreto: um agente Foundry funcionando, telemetria instrumentada, dashboards, avaliação em lote, testes red-team adversarial, verificações de compliance e alertas – tudo provisionável em um único comando e destruível em outro.

Experimente agora

Faça um fork do repositório e execute de ponta a ponta na sua assinatura:

git clone https://github.com/jvargh/ai-observability-starter-kit
cd ai-observability-starter-kit
pwsh -NoProfile -File scripts\run-e2e.ps1 -Region eastus2 -EnvName aiobs-foundry -SubscriptionId <your-subscription-id>

Conecte-se e contribua

Abra uma issue ou discussão no GitHub se encontrar um bug, quiser uma funcionalidade ou tiver ideias para compartilhar. Pull requests são bem-vindos.

GitHub: github.com/jvargh/ai-observability-starter-kit

Perguntas Frequentes

  • Qual o custo de execução do starter kit?
    O custo é de alguns centavos por execução completa (cerca de US$ 0,03/dia enquanto estiver rodando). O script de teardown remove todos os recursos, eliminando custos residuais.

  • Como faço para limpar o ambiente após os testes?
    Basta executar o script teardown.ps1 com o nome do ambiente. Ele deleta o resource group, faz purge do soft-delete do Azure AI Services e valida que todos os recursos foram removidos.

  • O que fazer se um avaliador retornar MissingRequiredDataMapping?
    Esse erro indica que o data_mapping não inclui todos os campos exigidos pelo avaliador. Verifique se query, response, tool_definitions e tool_calls estão mapeados e se esses campos existem nos registros de trace do Application Insights.

  • Posso reexecutar apenas a geração de tráfego e avaliação sem reprovisionar a infraestrutura?
    Sim, o script run-adhoc-traffic-and-eval.ps1 pula as fases de infraestrutura e deploy, gerando novos traces, rodando os 8 avaliadores e atualizando a telemetria em cerca de 15 minutos.

  • O kit suporta múltiplas estratégias de ataque red-team?
    Por padrão usa Flip e Base64, mas o script permite adicionar estratégias como IndirectJailbreak, Tense, Morse e Crescendo na lista attack_strategies.


Artigo originalmente publicado por varghesejoji em Azure Updates - Latest from Azure Charts.

Gostou? Compartilhe:
Precisa de ajuda?Fale com nossos especialistas 👋
Avatar Walcew - Headset