O pipeline é um loop de cinco estágios: Audio Dataset — Áudio multi-turn + comportamentos esperados em um schema JSONL simples. Quatro datasets de exemplo já vêm no repositório para execução ponta a ponta imediata. Voice Live API — Escolha o modo (Semantic VAD, Push-to-Talk ou Foundry Agent), modelo, voz e configurações de detecção de turno via um arquivo JSON.

O acelerador entrega 13 avaliadores nativos prontos para uso, cobrindo as dimensões mais críticas para voice agents em produção: Categoria Avaliadores Qualidade de intenção e tarefa Intent Resolution · Task Adherence · Task Completion · Response Completeness Tool calling Tool Call Accuracy · Tool Call Parameter Validity · Tool Result Usage · Tool Call Success Qualidade de conteúdo Groundedness · Relevance · Fluency · Coherence Dinâmica conversacional Turn-taking quality Cada avaliador roda...

4 de junho de 2026•6 min de leitura

Avalie antes de lançar: como o Voice Live Evaluation Harness transforma a qualidade de voice agents

SolarRezaei

Azure

Avalie antes de lançar: como o Voice Live Evaluation Harness transforma a qualidade de voice agents

TL;DR: A Microsoft liberou o Voice Live Evaluation Harness, um pipeline open-source que pontua automaticamente voice agents com os mesmos avaliadores do Microsoft Foundry. São 13 métricas por turno (intenção, aderência a tarefas, tool calls, groundedness), suporte aos modos Semantic VAD, Push-to-Talk e Foundry Agent, e integração com CI para detectar regressões. Ideal para estabelecer baseline e comparar configurações com dados, não com intuição.

Você construiu um voice agent no Azure Voice Live. A demonstração funciona perfeitamente. Aí um colega de time faz a pergunta que tira o sono de qualquer equipe de voice agent: "Como sabemos que ele é realmente bom — em 200 chamadas de clientes, não apenas nas três que acabamos de ouvir?"

Até hoje, a resposta honesta era: colocar o fone de ouvido. Escuta manual. Pontuação subjetiva em uma planilha. Sem baseline, sem sinal de regressão, sem dados para defender uma troca de modelo.

O Voice Live Evaluation Harness — agora disponível como open-source — muda esse cenário. É um pipeline de avaliação implantável que reproduz áudio multi-turn pré-gravado através do seu agente Voice Live e pontua cada turno com os mesmos avaliadores do Microsoft Foundry: automaticamente, de forma repetível e em paralelo.

Por que a avaliação sistemática é crítica para voice agents?

Agentes de texto já têm um ecossistema maduro de avaliação. Agentes de voz, não — e a lacuna é mais perigosa porque cada falha de voz acontece em tempo real, na frente do cliente, em uma linha telefônica que você não consegue reproduzir facilmente.

O Voice Live Evaluation Harness fecha essa lacuna com cinco capacidades concretas:

Estabelecer um baseline de qualidade. Execute um dataset de áudio representativo através do agente e obtenha scores que podem ser usados como barra de lançamento.
Comparar configurações lado a lado. Troque o modelo subjacente (GPT-Realtime 1.5, Azure-Realtime, MAI-Transcribe-1.5), altere a voz, ajuste thresholds de VAD — e veja exatamente quais parâmetros moveram quais scores.
Detectar regressões antes dos usuários. Conecte o harness ao CI e falhe o build quando a resolução de intenção cair abaixo do threshold definido.
Otimizar com dados, não com sensações. Quando a conclusão de tarefa cair, mergulhe nos scores por turno para ver se o agente falhou ao chamar a ferramenta certa, entendeu a intenção errada ou gerou uma resposta incompleta.
Iterar continuamente com dados de produção. Comece com os datasets de exemplo (planejamento de viagem, análise de dados complexa, testes de tool calls, multi-conversação em lote) e depois adicione áudio capturado de testes internos, pilotos e tráfego real. Reexecute após cada ajuste de prompt ou troca de modelo para que o harness se torne um sinal contínuo de qualidade — não uma checklist única de lançamento.

Como funciona?

Diagrama do pipeline de 5 estágios

O pipeline é um loop de cinco estágios:

Audio Dataset — Áudio multi-turn + comportamentos esperados em um schema JSONL simples. Quatro datasets de exemplo já vêm no repositório para execução ponta a ponta imediata.
Voice Live API — Escolha o modo (Semantic VAD, Push-to-Talk ou Foundry Agent), modelo, voz e configurações de detecção de turno via um arquivo JSON. Cada turno de áudio é transmitido pela API — localmente via CLI ou, se você implantou o evaluation agent, via o Container App hospedado para lotes longos na sua assinatura.
Transcript + Response — Cada turno produz um transcript do agente, a resposta do modelo e quaisquer tool calls feitas — capturados automaticamente para pontuação.
Foundry Evaluators — 13 avaliadores nativos — alimentados pelos mesmos modelos avaliadores do Foundry (GPT-4.1-mini e o4-mini) — julgam cada turno nas dimensões de resolução de intenção, aderência a tarefas, precisão de tool calls, groundedness e mais.
Quality Scores — Scores por turno e agregados vão para o portal Microsoft Foundry na aba Evaluation do seu projeto — ordenáveis, filtráveis, comparáveis entre execuções.

Então o loop se fecha. Áudio capturado de testes, pilotos e tráfego de produção realimenta o dataset — cada passagem torna a próxima avaliação mais representativa do que os usuários realmente fazem.

Precisa de ajuda para implementar avaliação contínua de agents na sua cloud? Conheça as soluções da Nuvem Online.

O que é medido?

O acelerador entrega 13 avaliadores nativos prontos para uso, cobrindo as dimensões mais críticas para voice agents em produção:

Categoria	Avaliadores
Qualidade de intenção e tarefa	Intent Resolution · Task Adherence · Task Completion · Response Completeness
Tool calling	Tool Call Accuracy · Tool Call Parameter Validity · Tool Result Usage · Tool Call Success
Qualidade de conteúdo	Groundedness · Relevance · Fluency · Coherence
Dinâmica conversacional	Turn-taking quality

Cada avaliador roda contra os mesmos modelos avaliadores do Foundry (GPT-4.1-mini e o4-mini) que alimentam a avaliação no resto do Microsoft Foundry — portanto, os scores do seu voice agent são diretamente comparáveis aos scores do seu text agent.

Executando o CLI localmente contra seu endpoint Voice Live existente

Se você já tem um agente Voice Live implantado e quer apenas iteração rápida no laptop:

git clone https://github.com/microsoft-foundry/voicelive-evaluation.git
cd voicelive-evaluation/evaluation_harness

python -m venv .venv && source .venv/bin/activate
pip install -r requirements.txt

cp .sample_env .env
# Edite .env com seu AZURE_VOICELIVE_ENDPOINT

python voice_agent_evaluation.py \
  --config configs/sample_vad_realtime.json

O passo a passo completo — schema do dataset, referência de configuração, interpretação de scores e troubleshooting — está na documentação oficial.

Primeiros passos

Repositório: microsoft-foundry/voicelive-evaluation
Docs: How to evaluate Voice Live agents (preview)
Teste, abra issues e diga quais avaliadores você gostaria de ter.

Perguntas Frequentes

Quais modos do Azure Voice Live o Evaluation Harness suporta?
O harness suporta os três modos de produção: Semantic VAD, Push-to-Talk e Foundry Agent mode, incluindo conversas multi-turn com tool calls e grounding.
Preciso ter um agente Voice Live implantado para usar o harness?
Sim, você precisa de um endpoint do Azure Voice Live. O harness pode ser executado localmente via CLI contra um endpoint existente ou implantado como um evaluation agent na sua assinatura Azure usando o Azure Developer CLI (azd).
Como o harness se integra com CI?
Você pode conectar o harness ao seu pipeline de CI e configurar thresholds para falhar o build quando métricas como intent resolution caírem abaixo do nível desejado, garantindo detecção precoce de regressões.
Os scores gerados são comparáveis com avaliações de texto?
Sim, pois o harness usa os mesmos modelos avaliadores do Foundry (GPT-4.1-mini e o4-mini) que avaliam agents de texto, permitindo comparação direta entre scores de voz e texto no portal do Foundry.

Artigo originalmente publicado por SolarRezaei em Azure Updates - Latest from Azure Charts.

Tags:

#AzureVoiceLive #MicrosoftFoundry #VoiceEvaluation #AI #Observability

Gostou? Compartilhe: