2 de junho de 2026•8 min de leitura

Crie agentes confiáveis em qualquer framework com avaliações abertas e um padrão de controle

Sarah Bird

Azure

Banner - Crie agentes confiáveis em qualquer framework com avaliações abertas e um padrão de controle

TL;DR: Microsoft lançou no Build 2026 dois projetos open-source para fechar a lacuna de confiança em agentes de IA: ASSERT (avaliação orientada por políticas) e o Agent Control Specification (ACS, padrão portátil de controles em runtime). Juntos, permitem que equipes brasileiras avaliem riscos, apliquem controles e monitorem comportamento em produção, sem depender de vendor lock-in. A conclusão: confiança em agentes exige um ciclo contínuo de avaliação e enforcement — e agora ele é aberto e multiplataforma.

Estamos há quatro anos na era da IA generativa, e agentes estão em toda parte. Empresas os implantam em escala, mas a confiança não acompanhou. A lacuna é concreta: políticas escritas não se traduzem em controles em runtime, avaliar a segurança de agentes em contextos mutáveis é difícil, e controles espalhados entre prompts, código, gateways e frameworks tornam arriscada a transição de demo para produção.

No Microsoft Build 2026, essa lacuna está sendo fechada. Ao final deste artigo, você saberá como avaliar um agente contra suas próprias políticas, colocar controles nos exatos pontos de falha e monitorar seu comportamento em produção. Tudo isso pode ser feito hoje, em qualquer framework, com código aberto.

O que há de novo?

Estamos anunciando um novo framework de confiança e um conjunto de capacidades para desenvolvedores que constroem agentes de IA em qualquer framework. Tudo começa com dois projetos open-source que qualquer desenvolvedor pode usar, independentemente da stack:

ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing): framework de avaliação orientado por políticas, construído sobre pesquisa da Microsoft.
Agent Control Specification (ACS): padrão portátil de controles em runtime, parte do Agent Governance Toolkit, projetado para adoção ampla no ecossistema.

Como o ASSERT muda a avaliação de agentes?

Agentes falham de maneiras difíceis de enxergar. Eles se desviam das políticas, produzem saídas inseguras em casos de borda e se comportam em produção de forma diferente dos testes. Benchmarks genéricos não capturam essas falhas porque não são construídos em torno das suas políticas, do seu agente ou do seu caso de uso.

ASSERT é o framework open-source da Microsoft para avaliação de agentes orientada por políticas, baseado em uma abordagem comprovada da Microsoft Research. Ele toma suas políticas organizacionais e requisitos como entrada, gera sistematicamente cenários de avaliação direcionados e revela defeitos de segurança e qualidade antes que cheguem à produção.

ASSERT é:

Orientado a requisitos: converte políticas em avaliações mensuráveis e específicas para o comportamento do seu agente.
Focado em segurança: usa abordagem sistematizada validada para avaliação de segurança, não apenas qualidade.
Open-source, qualquer framework: funciona com LangChain, CrewAI, LiteLLM, OpenAI e outros.
Fluxo integrado: execute ASSERT para identificar defeitos, aplique controles, reexecute para validar melhoria — com métricas claras de antes e depois.

Estamos gratos pelo lançamento com apoio de parceiros como CrewAI, Arize AI, LiteLLM, Pipecat e Pydantic, que já estão construindo e validando o framework.

O que é o Agent Control Specification (ACS)?

Saber onde seu agente está falhando é apenas metade do problema. A outra metade é ter uma maneira consistente e portátil de corrigir, que funcione entre frameworks, viaje com o agente e não o prenda a um único fornecedor ou infraestrutura.

ACS é uma especificação aberta da indústria para colocar controles determinísticos de segurança e proteção em checkpoints ao longo dos fluxos de agente, e faz parte do Agent Governance Toolkit. Pense no ACS como o MCP ou A2A da segurança de agentes. Assim como o Model Context Protocol (MCP) padronizou a conexão de agentes a ferramentas e o Agent2Agent (A2A) padronizou a comunicação entre agentes, o ACS oferece um padrão aberto para controles de segurança que qualquer framework pode adotar.

O que o ACS faz:

Define cinco checkpoints de validação no ciclo de vida do agente: input, LLM, state, tool execution e output.
Permite lógica de controle determinística (classifiers, LLM judges, filtros customizados) nos pontos exatos.
É expresso como YAML de política padrão, tornando os controles portáteis, versionáveis e auditáveis.
Funciona com qualquer framework e é intencionalmente projetado para adoção na indústria.

O ACS é lançado com um ecossistema amplo de clientes e parceiros, incluindo KPMG, Zscaler, Arize AI, Aviatrix, CrewAI, IBM, Monte Carlo, Obsidian, entre outros.

Como ASSERT e ACS trabalham juntos?

ASSERT e ACS são projetados para operar em conjunto:

Execute ASSERT para identificar onde seu agente está violando políticas.
Use ACS para colocar os controles certos nos checkpoints adequados para corrigir essas falhas.
Reexecute ASSERT para confirmar a melhoria.

É um ciclo fechado de avaliação e enforcement, e o ACS oferece uma camada de controle portátil que viaja com o agente, não presa a nenhuma infraestrutura ou fornecedor.

Quer implementar ASSERT e ACS na sua empresa? A Nuvem Online oferece consultoria especializada em governança de agentes, avaliação de segurança e adoção de padrões abertos — com foco em resultados para o mercado brasileiro. Fale conosco.

Como a governança contínua no Foundry ajuda?

A maioria dos times sabe que precisa de guardrails, mas poucos sabem quais se aplicam ao seu agente. O Guided Guardrail Setup no Foundry (agora em public preview) dá recomendações personalizadas em minutos. Um breve questionário sobre o público, acesso a dados e caso de uso do agente revela os riscos específicos e recomenda os controles certos — sem necessidade de expertise em segurança.

Como a observabilidade contínua no Foundry melhora o ciclo?

Entregar um agente é o começo, não o fim. Manter agentes precisos, seguros e alinhados com os usuários exige visibilidade e capacidade de melhoria contínua.

Rubric: avaliação consciente do contexto
O Rubric evaluator (public preview) gera automaticamente critérios de avaliação customizados a partir da definição do seu agente e caso de uso. Ele cria dimensões ponderadas para pontuação agregada e alimenta diretamente o Agent Optimizer.

Interoperabilidade e observabilidade central

Tracing e avaliações para qualquer framework (public preview).
Azure Developer CLI (AZD) com observabilidade integrada (public preview).
Multi-turn evaluation, User Simulation, Intelligent Sampling, Traces to Dataset, Trace replay e Agent Optimizer (diversos em preview).

ROI de agentes (private preview) mede taxas de conclusão, tempo economizado e eficiência de custos — dando aos stakeholders os dados necessários para justificar investimentos.

Como a segurança no Foundry protege dados sensíveis?

Avaliação e observabilidade dizem como o agente está se comportando. Segurança garante que cada interação respeite suas políticas de proteção de dados. O Runtime Data Loss Prevention (DLP) no Foundry estende o Microsoft Purview para interações de agente, detectando e bloqueando dados sensíveis em tempo real. Os insights do Purview agora estão diretamente no Foundry Control Plane, dando aos admins visibilidade em linha dos tipos de informação sensível detectados.

Juntas, essas capacidades elevam o padrão para construir agentes seguros, com enforcement de proteção de dados e política em cada interação — movendo a proteção para o inner loop, junto com avaliação, controle e observabilidade.

Comece hoje

Para saber mais sobre ASSERT e ACS:

Repositórios no GitHub:

Documentação do Foundry:

Perguntas Frequentes

Preciso usar o ecossistema Microsoft (Azure/Foundry) para adotar ASSERT e ACS?
Não. ASSERT e ACS são open-source e funcionam com qualquer framework – LangChain, CrewAI, OpenAI, LiteLLM, entre outros. A Microsoft oferece referências para Foundry, mas a especificação foi desenhada para adoção ampla, sem vendor lock-in.
Como ASSERT difere de outras ferramentas de avaliação de agentes?
Assert é policy-driven e focado em segurança, não apenas qualidade. Ele usa uma abordagem sistematizada validada pela Microsoft Research para gerar cenários de teste a partir das suas políticas organizacionais, diferente de benchmarks genéricos que não capturam falhas específicas do seu agente.
ACS substitui guardrails existentes como filtros de PII ou jailbreak detection?
Não, ACS padroniza a forma de posicionar e gerenciar esses controles. Ele define cinco checkpoints (input, LLM, state, tool execution, output) e permite usar classificadores, LLM judges e filtros customizados como parte de um YAML portátil. Isso unifica a governança entre frameworks.
O que uma empresa brasileira que já usa Azure ganha com essas novidades?
Além dos projetos open-source, o Foundry agora oferece Guided Guardrail Setup, Rubric evaluator, tracing multi-turn, DLP runtime e ROI measurement. Isso reduz o tempo de configuração de segurança e dá visibilidade ponta a ponta do comportamento do agente, essencial para compliance e auditoria.
Como começar a usar ASSERT e ACS hoje?
Acesse os repositórios no GitHub: ASSERT (avaliação) e Agent Governance Toolkit (ACS). Ambos incluem exemplos YAML e integrações com frameworks populares. A Microsoft recomenda começar rodando ASSERT para identificar falhas, aplicar controles com ACS e depois reavaliar — fechando o ciclo.

Artigo originalmente publicado por Sarah Bird em Azure Updates - Latest from Azure Charts.

Tags:

#ASSERT #ACS #AgentTrust #OpenSource #MicrosoftBuild #AI #Governança #Eval #Segurança #CloudBrasil

Gostou? Compartilhe: