Avalie antes de lançar: como o Voice Live Evaluation Harness transforma a qualidade de voice agents
TL;DR: A Microsoft liberou o Voice Live Evaluation Harness, um pipeline open-source que pontua automaticamente voice agents com os mesmos avaliadores do Microsoft Foundry. São 13 métricas por turno (intenção, aderência a tarefas, tool calls, groundedness), suporte aos modos Semantic VAD, Push-to-Talk e Foundry Agent, e integração com CI para detectar regressões. Ideal para estabelecer baseline e comparar configurações com dados, não com intuição.
Você construiu um voice agent no Azure Voice Live. A demonstração funciona perfeitamente. Aí um colega de time faz a pergunta que tira o sono de qualquer equipe de voice agent: "Como sabemos que ele é realmente bom — em 200 chamadas de clientes, não apenas nas três que acabamos de ouvir?"
Até hoje, a resposta honesta era: colocar o fone de ouvido. Escuta manual. Pontuação subjetiva em uma planilha. Sem baseline, sem sinal de regressão, sem dados para defender uma troca de modelo.
O Voice Live Evaluation Harness — agora disponível como open-source — muda esse cenário. É um pipeline de avaliação implantável que reproduz áudio multi-turn pré-gravado através do seu agente Voice Live e pontua cada turno com os mesmos avaliadores do Microsoft Foundry: automaticamente, de forma repetível e em paralelo.
Por que a avaliação sistemática é crítica para voice agents?
Agentes de texto já têm um ecossistema maduro de avaliação. Agentes de voz, não — e a lacuna é mais perigosa porque cada falha de voz acontece em tempo real, na frente do cliente, em uma linha telefônica que você não consegue reproduzir facilmente.
O Voice Live Evaluation Harness fecha essa lacuna com cinco capacidades concretas:
- Estabelecer um baseline de qualidade. Execute um dataset de áudio representativo através do agente e obtenha scores que podem ser usados como barra de lançamento.
- Comparar configurações lado a lado. Troque o modelo subjacente (GPT-Realtime 1.5, Azure-Realtime, MAI-Transcribe-1.5), altere a voz, ajuste thresholds de VAD — e veja exatamente quais parâmetros moveram quais scores.
- Detectar regressões antes dos usuários. Conecte o harness ao CI e falhe o build quando a resolução de intenção cair abaixo do threshold definido.
- Otimizar com dados, não com sensações. Quando a conclusão de tarefa cair, mergulhe nos scores por turno para ver se o agente falhou ao chamar a ferramenta certa, entendeu a intenção errada ou gerou uma resposta incompleta.
- Iterar continuamente com dados de produção. Comece com os datasets de exemplo (planejamento de viagem, análise de dados complexa, testes de tool calls, multi-conversação em lote) e depois adicione áudio capturado de testes internos, pilotos e tráfego real. Reexecute após cada ajuste de prompt ou troca de modelo para que o harness se torne um sinal contínuo de qualidade — não uma checklist única de lançamento.
Como funciona?
O pipeline é um loop de cinco estágios:
- Audio Dataset — Áudio multi-turn + comportamentos esperados em um schema JSONL simples. Quatro datasets de exemplo já vêm no repositório para execução ponta a ponta imediata.
- Voice Live API — Escolha o modo (Semantic VAD, Push-to-Talk ou Foundry Agent), modelo, voz e configurações de detecção de turno via um arquivo JSON. Cada turno de áudio é transmitido pela API — localmente via CLI ou, se você implantou o evaluation agent, via o Container App hospedado para lotes longos na sua assinatura.
- Transcript + Response — Cada turno produz um transcript do agente, a resposta do modelo e quaisquer tool calls feitas — capturados automaticamente para pontuação.
- Foundry Evaluators — 13 avaliadores nativos — alimentados pelos mesmos modelos avaliadores do Foundry (GPT-4.1-mini e o4-mini) — julgam cada turno nas dimensões de resolução de intenção, aderência a tarefas, precisão de tool calls, groundedness e mais.
- Quality Scores — Scores por turno e agregados vão para o portal Microsoft Foundry na aba Evaluation do seu projeto — ordenáveis, filtráveis, comparáveis entre execuções.
Então o loop se fecha. Áudio capturado de testes, pilotos e tráfego de produção realimenta o dataset — cada passagem torna a próxima avaliação mais representativa do que os usuários realmente fazem.
O que é medido?
O acelerador entrega 13 avaliadores nativos prontos para uso, cobrindo as dimensões mais críticas para voice agents em produção:
| Categoria | Avaliadores |
|---|---|
| Qualidade de intenção e tarefa | Intent Resolution · Task Adherence · Task Completion · Response Completeness |
| Tool calling | Tool Call Accuracy · Tool Call Parameter Validity · Tool Result Usage · Tool Call Success |
| Qualidade de conteúdo | Groundedness · Relevance · Fluency · Coherence |
| Dinâmica conversacional | Turn-taking quality |
Cada avaliador roda contra os mesmos modelos avaliadores do Foundry (GPT-4.1-mini e o4-mini) que alimentam a avaliação no resto do Microsoft Foundry — portanto, os scores do seu voice agent são diretamente comparáveis aos scores do seu text agent.
Executando o CLI localmente contra seu endpoint Voice Live existente
Se você já tem um agente Voice Live implantado e quer apenas iteração rápida no laptop:
git clone https://github.com/microsoft-foundry/voicelive-evaluation.git
cd voicelive-evaluation/evaluation_harness
python -m venv .venv && source .venv/bin/activate
pip install -r requirements.txt
cp .sample_env .env
# Edite .env com seu AZURE_VOICELIVE_ENDPOINT
python voice_agent_evaluation.py \
--config configs/sample_vad_realtime.json
O passo a passo completo — schema do dataset, referência de configuração, interpretação de scores e troubleshooting — está na documentação oficial.
Primeiros passos
- Repositório: microsoft-foundry/voicelive-evaluation
- Docs: How to evaluate Voice Live agents (preview)
- Teste, abra issues e diga quais avaliadores você gostaria de ter.
Perguntas Frequentes
-
Quais modos do Azure Voice Live o Evaluation Harness suporta?
O harness suporta os três modos de produção: Semantic VAD, Push-to-Talk e Foundry Agent mode, incluindo conversas multi-turn com tool calls e grounding. -
Preciso ter um agente Voice Live implantado para usar o harness?
Sim, você precisa de um endpoint do Azure Voice Live. O harness pode ser executado localmente via CLI contra um endpoint existente ou implantado como um evaluation agent na sua assinatura Azure usando o Azure Developer CLI (azd). -
Como o harness se integra com CI?
Você pode conectar o harness ao seu pipeline de CI e configurar thresholds para falhar o build quando métricas como intent resolution caírem abaixo do nível desejado, garantindo detecção precoce de regressões. -
Os scores gerados são comparáveis com avaliações de texto?
Sim, pois o harness usa os mesmos modelos avaliadores do Foundry (GPT-4.1-mini e o4-mini) que avaliam agents de texto, permitindo comparação direta entre scores de voz e texto no portal do Foundry.
Artigo originalmente publicado por SolarRezaei em Azure Updates - Latest from Azure Charts.