4 de junho de 20266 min de leitura

Avalie antes de lançar: como o Voice Live Evaluation Harness transforma a qualidade de voice agents

SolarRezaei

Azure

Banner - Avalie antes de lançar: como o Voice Live Evaluation Harness transforma a qualidade de voice agents

Avalie antes de lançar: como o Voice Live Evaluation Harness transforma a qualidade de voice agents

TL;DR: A Microsoft liberou o Voice Live Evaluation Harness, um pipeline open-source que pontua automaticamente voice agents com os mesmos avaliadores do Microsoft Foundry. São 13 métricas por turno (intenção, aderência a tarefas, tool calls, groundedness), suporte aos modos Semantic VAD, Push-to-Talk e Foundry Agent, e integração com CI para detectar regressões. Ideal para estabelecer baseline e comparar configurações com dados, não com intuição.

Você construiu um voice agent no Azure Voice Live. A demonstração funciona perfeitamente. Aí um colega de time faz a pergunta que tira o sono de qualquer equipe de voice agent: "Como sabemos que ele é realmente bom — em 200 chamadas de clientes, não apenas nas três que acabamos de ouvir?"

Até hoje, a resposta honesta era: colocar o fone de ouvido. Escuta manual. Pontuação subjetiva em uma planilha. Sem baseline, sem sinal de regressão, sem dados para defender uma troca de modelo.

O Voice Live Evaluation Harness — agora disponível como open-source — muda esse cenário. É um pipeline de avaliação implantável que reproduz áudio multi-turn pré-gravado através do seu agente Voice Live e pontua cada turno com os mesmos avaliadores do Microsoft Foundry: automaticamente, de forma repetível e em paralelo.

Por que a avaliação sistemática é crítica para voice agents?

Agentes de texto já têm um ecossistema maduro de avaliação. Agentes de voz, não — e a lacuna é mais perigosa porque cada falha de voz acontece em tempo real, na frente do cliente, em uma linha telefônica que você não consegue reproduzir facilmente.

O Voice Live Evaluation Harness fecha essa lacuna com cinco capacidades concretas:

  • Estabelecer um baseline de qualidade. Execute um dataset de áudio representativo através do agente e obtenha scores que podem ser usados como barra de lançamento.
  • Comparar configurações lado a lado. Troque o modelo subjacente (GPT-Realtime 1.5, Azure-Realtime, MAI-Transcribe-1.5), altere a voz, ajuste thresholds de VAD — e veja exatamente quais parâmetros moveram quais scores.
  • Detectar regressões antes dos usuários. Conecte o harness ao CI e falhe o build quando a resolução de intenção cair abaixo do threshold definido.
  • Otimizar com dados, não com sensações. Quando a conclusão de tarefa cair, mergulhe nos scores por turno para ver se o agente falhou ao chamar a ferramenta certa, entendeu a intenção errada ou gerou uma resposta incompleta.
  • Iterar continuamente com dados de produção. Comece com os datasets de exemplo (planejamento de viagem, análise de dados complexa, testes de tool calls, multi-conversação em lote) e depois adicione áudio capturado de testes internos, pilotos e tráfego real. Reexecute após cada ajuste de prompt ou troca de modelo para que o harness se torne um sinal contínuo de qualidade — não uma checklist única de lançamento.

Como funciona?

Diagrama do pipeline de 5 estágios

O pipeline é um loop de cinco estágios:

  1. Audio Dataset — Áudio multi-turn + comportamentos esperados em um schema JSONL simples. Quatro datasets de exemplo já vêm no repositório para execução ponta a ponta imediata.
  2. Voice Live API — Escolha o modo (Semantic VAD, Push-to-Talk ou Foundry Agent), modelo, voz e configurações de detecção de turno via um arquivo JSON. Cada turno de áudio é transmitido pela API — localmente via CLI ou, se você implantou o evaluation agent, via o Container App hospedado para lotes longos na sua assinatura.
  3. Transcript + Response — Cada turno produz um transcript do agente, a resposta do modelo e quaisquer tool calls feitas — capturados automaticamente para pontuação.
  4. Foundry Evaluators — 13 avaliadores nativos — alimentados pelos mesmos modelos avaliadores do Foundry (GPT-4.1-mini e o4-mini) — julgam cada turno nas dimensões de resolução de intenção, aderência a tarefas, precisão de tool calls, groundedness e mais.
  5. Quality Scores — Scores por turno e agregados vão para o portal Microsoft Foundry na aba Evaluation do seu projeto — ordenáveis, filtráveis, comparáveis entre execuções.

Então o loop se fecha. Áudio capturado de testes, pilotos e tráfego de produção realimenta o dataset — cada passagem torna a próxima avaliação mais representativa do que os usuários realmente fazem.

O que é medido?

O acelerador entrega 13 avaliadores nativos prontos para uso, cobrindo as dimensões mais críticas para voice agents em produção:

Categoria Avaliadores
Qualidade de intenção e tarefa Intent Resolution · Task Adherence · Task Completion · Response Completeness
Tool calling Tool Call Accuracy · Tool Call Parameter Validity · Tool Result Usage · Tool Call Success
Qualidade de conteúdo Groundedness · Relevance · Fluency · Coherence
Dinâmica conversacional Turn-taking quality

Cada avaliador roda contra os mesmos modelos avaliadores do Foundry (GPT-4.1-mini e o4-mini) que alimentam a avaliação no resto do Microsoft Foundry — portanto, os scores do seu voice agent são diretamente comparáveis aos scores do seu text agent.

Executando o CLI localmente contra seu endpoint Voice Live existente

Se você já tem um agente Voice Live implantado e quer apenas iteração rápida no laptop:

git clone https://github.com/microsoft-foundry/voicelive-evaluation.git
cd voicelive-evaluation/evaluation_harness

python -m venv .venv && source .venv/bin/activate
pip install -r requirements.txt

cp .sample_env .env
# Edite .env com seu AZURE_VOICELIVE_ENDPOINT

python voice_agent_evaluation.py \
  --config configs/sample_vad_realtime.json

O passo a passo completo — schema do dataset, referência de configuração, interpretação de scores e troubleshooting — está na documentação oficial.

Primeiros passos

Perguntas Frequentes

  • Quais modos do Azure Voice Live o Evaluation Harness suporta?
    O harness suporta os três modos de produção: Semantic VAD, Push-to-Talk e Foundry Agent mode, incluindo conversas multi-turn com tool calls e grounding.

  • Preciso ter um agente Voice Live implantado para usar o harness?
    Sim, você precisa de um endpoint do Azure Voice Live. O harness pode ser executado localmente via CLI contra um endpoint existente ou implantado como um evaluation agent na sua assinatura Azure usando o Azure Developer CLI (azd).

  • Como o harness se integra com CI?
    Você pode conectar o harness ao seu pipeline de CI e configurar thresholds para falhar o build quando métricas como intent resolution caírem abaixo do nível desejado, garantindo detecção precoce de regressões.

  • Os scores gerados são comparáveis com avaliações de texto?
    Sim, pois o harness usa os mesmos modelos avaliadores do Foundry (GPT-4.1-mini e o4-mini) que avaliam agents de texto, permitindo comparação direta entre scores de voz e texto no portal do Foundry.


Artigo originalmente publicado por SolarRezaei em Azure Updates - Latest from Azure Charts.

Gostou? Compartilhe:
Precisa de ajuda?Fale com nossos especialistas 👋
Avatar Walcew - Headset