18 de junho de 202613 min de leitura

Sistemas de Aprendizagem Orientados por Resultados: RL Empresarial com OpenEnv e Foundry

Govind Kamtamneni

Azure

Banner - Sistemas de Aprendizagem Orientados por Resultados: RL Empresarial com OpenEnv e Foundry

Sistemas de Aprendizagem Orientados por Resultados: RL Empresarial com OpenEnv e Foundry

TL;DR: O artigo apresenta a visão da Microsoft para sistemas de aprendizado empresarial baseados em agentes: codificar fluxos de trabalho e rubricas em ambientes OpenEnv, melhorar primeiro sem tocar nos pesos (prompt, skills, tools) e depois com pós-treinamento (incluindo ECHO, que aproveita 89% dos tokens descartados). O loop é seu, o modelo é intercambiável. Para empresas brasileiras, isso significa sair de modelos alugados para ativos de aprendizado proprietários, com custo e governança controlados.

O que você precisa saber: ambientes, avaliações e rubricas em linguagem clara

Um ambiente (RLE — reinforcement-learning environment) é um espaço de prática para seu agente (harness + modelo). Ele codifica seu fluxo de trabalho real e seu procedimento operacional padrão, permitindo que o agente execute passos, use ferramentas e veja dados como se estivesse em produção. Pense como um simulador de voo para um processo de negócio.

Uma avaliação (eval) é como você julga um resultado, e o coração dela é uma rubrica: uma definição clara e pontuada de “feito certo” para o seu outcome — não um leaderboard público. “Ele reconciliou a fatura com o contrato? Citou uma cláusula real? Respeitou a política?” O Foundry oferece avaliação de agentes para escrever esses julgamentos, e um otimizador (abaixo) para agir sobre as pontuações.

A jogada que une tudo: um ambiente já contém sua avaliação. Codifique seu workflow mais sua rubrica de resultado, e você não escreveu apenas um teste — construiu um espaço de hill-climbing. O agente pratica, a rubrica pontua e o sistema escala em direção ao seu resultado. É por isso que RLEs também são evals: um artefato que simultaneamente exercita o agente e o avalia.

Diagrama conceitual: fluxo de codificação de workflow e rubrica em ambiente OpenEnv

Como o sistema aprende de duas maneiras?

Antes de qualquer ciência, a ideia mais útil deste artigo: um sistema pode melhorar de duas formas, e você deve usá-las em ordem.

1. Aprendizado não paramétrico (os pesos ficam congelados)

A primeira forma deixa os pesos do modelo intactos e melhora o harness ao redor deles: o system prompt, as skills (procedimentos nomeados e reutilizáveis), as descrições das ferramentas, o contexto recuperado pelo Foundry IQ e Memory, e até qual modelo está rodando. Sem GPUs, sem treinamento, resultados em minutos. O Foundry oferece isso como o Agent Optimizer: ele executa um loop fechado (avalia seu agente contra seus critérios, gera melhores configurações, pontua-as, deploy do vencedor) e pode reescrever instruções, sintetizar skills, ajustar descrições de ferramentas ou escolher um modelo melhor para seu trade-off entre qualidade e custo. Em um exemplo, um agente de suporte subiu de 0,60 para 0,92 na rubrica sem retreino e sem mudança de código — apenas prompt, skills e tools mais inteligentes.

A Microsoft Research está levando a otimização de harness ainda mais longe com SkillOpt: trata o documento de skill como algo treinável — edita um único Markdown de skill a partir de rollouts pontuados e aceita uma edição apenas quando a validação em dados retidos melhora estritamente. O artefato implantável é um best_skill.md compacto que roda contra um modelo inalterado, e ele eleva a acurácia sem skill em mais de 20 pontos em um modelo frontier em seis benchmarks (paper). Comece por aqui. Aprendizado não paramétrico é barato, rápido e muitas vezes suficiente sozinho.

2. Aprendizado paramétrico (os pesos mudam)

A segunda forma é para quando você quer o comportamento no próprio modelo: mais rápido e barato de servir, e totalmente controlado (soberano). Você altera os pesos com pós-treinamento. É aqui que um pequeno modelo aberto pode silenciosamente superar uma API frontier na sua tarefa, e onde vive a ciência nova mais profunda — porque você pode ensinar o modelo não apenas o que fazer, mas como seu mundo reage. Essa técnica é ECHO, e a maior parte do restante deste artigo é sobre ela. O ponto para levar adiante: faça o aprendizado não paramétrico barato primeiro, e recorra ao paramétrico quando o resultado — e a economia — justificarem possuir o modelo.

Um agente, um sandbox, dois tipos de aprendizado

Ambos os tipos de aprendizado rodam contra a mesma coisa: um agente hospedado (seu modelo + prompt + ferramentas + skills) executando em um sandbox isolado e de propriedade do projeto. O Foundry executa agentes hospedados em sandboxes Azure Container Apps (ACA): cada um tem seu próprio filesystem, sessão e estado, com rede default-deny para que uma chamada de ferramenta não possa exfiltrar um segredo silenciosamente. O Agent Optimizer dirige esse agente hospedado através de seu loop de avaliação exatamente dentro desse sandbox.

E a contribuição da Microsoft para o OpenEnv (mais em um momento) faz com que o mesmo sandbox ACA seja um ambiente OpenEnv, de modo que o agente que você otimiza não parametricamente é o agente que você pós-treina parametricamente, na mesma caixa segura. Um agente, um sandbox, duas maneiras de escalar. O diagrama no topo deste artigo mostra o loop completo em uma página.

Mapeando para o que foi lançado: Toolboxes dão ao agente um conjunto governado de ferramentas; sandboxes ACA dão um lugar isolado para executar; Foundry IQ é o plano de conhecimento que ancora; agent evaluation é a rubrica; Agent Optimizer e pós-treinamento são as duas etapas de melhoria; Managed Compute serve o resultado. Um padrão aberto por baixo impede que as partes te prendam: OpenEnv.

Por que entramos no OpenEnv — e o que isso significa para o ecossistema

OpenEnv é um protocolo para ambientes: um contrato pequeno e compartilhado (reset, step, state, transportado sobre MCP, empacotado com Docker, com a promessa de que o ambiente de treinamento corresponde à produção). Não é um framework de recompensa nem um trainer; é a camada interoperável fina que permite que qualquer modelo, harness, trainer e ambiente se componham. Isso é o “interoperável” em “aberto e interoperável”, e é por isso que a Microsoft entrou na comunidade junto com o time PyTorch da Meta, NVIDIA, Hugging Face, Unsloth, Prime Intellect e outros.

Duas dessas contribuições já foram mescladas no OpenEnv: um provedor de sandbox Azure Container Apps hospedado, para que um RLE possa executar rollouts no sandbox Azure isolado e de propriedade do projeto mencionado acima, com egress default-deny que bloqueia roubo de tokens — o isolamento de nível empresarial que um RLE precisa; e o ECHO env-token world-modeling como RFC 010, que ensina trainers a aprender a partir dos tokens do próprio ambiente. RLEs privados e evals privados, mantidos abertos e interoperáveis de propósito, com mais por vir.

Pós-treinamento sem o trabalho pesado

Antes da técnica frontier, o básico: possuir os pesos é muito mais acessível do que costumava ser. Fazer fine-tuning de um modelo pequeno na sua tarefa e servi-lo antes exigia montar clusters de GPU e um stack de treinamento. O pós-treinamento gerenciado do Foundry remove isso: expõe um loop de treinamento estilo Tinker — os primitivos de baixo nível sample, forward_backward e optim_step — rodando server-side nas GPUs do Foundry enquanto você mantém os dados e o loop. Você escreve o loop; o serviço cuida do hardware. Sem GPUs no cliente, sem cluster para cuidar. Duas sessões do Build explicam passo a passo: BRK231 e BRK232.

Esse mesmo loop gerenciado é onde a Microsoft está avançando a fronteira: não apenas consumindo o stack, mas avançando-o e contribuindo com as peças de volta para o OpenEnv (o provedor de sandbox ACA e o trabalho de world-modeling na próxima seção), para que todo o ecossistema se beneficie. O exemplo mais claro vem a seguir. Ele transforma a metade desperdiçada de cada rollout em um sinal de treinamento gratuito — e isso é implementado como uma mudança de uma linha exatamente neste loop.

Levando ambientes OpenEnv à fronteira

Entrar no OpenEnv não é um exercício de logo. Um padrão aberto permanece relevante apenas se continuar absorvendo a fronteira da pesquisa, então parte do nosso trabalho é difundir essa fronteira dentro dele. O exemplo mais claro é uma contribuição que submetemos como pull request: ECHO world-modeling (RFC 010), que traz um resultado da Microsoft Research (“Terminal Agents Learn World Models for Free”) para dentro do OpenEnv, onde qualquer equipe pode adotá-lo. É assim que uma técnica de laboratório se torna uma capacidade compartilhada — e o loop de aprendizado é democratizado.

Aqui está o que ele faz. Uma transcrição de agente é metade ações (o que o modelo escreve) e metade observações (o que o ambiente escreve de volta). O RL padrão de agente treina as ações e mascara as observações. O ECHO as mantém: um pequeno termo de cross-entropy que faz a política prever os tokens do próprio ambiente — um world model — a partir de logits que ela já computou no mesmo forward pass. Nenhum rollout extra, nenhum professor, nenhum rótulo.

Fórmula: L = L_GRPO(action tokens) + λ * CrossEntropy(observation tokens)

O sinal gratuito é grande e real: em um episódio de agente capturado, 4.659 de 5.247 tokens aprendíveis (89%) são observações do ambiente — 7,9× os tokens de ação, exatamente a metade que o RL padrão de agente descarta. A Prime Intellect chega à mesma conclusão em “True Agents Model the World”, reafirmando aprendizado supervisionado em tokens de resposta de ferramenta como RL com vantagem positiva constante, integrável sem custo extra. Dois grupos, uma direção: world-modeling pertence ao loop RL, não acoplado depois.

Na ablação honesta (λ ligado vs. desligado), a recompensa de treinamento mal se move; o ganho está na generalização. Resultados publicados do ECHO: held-out pass@1 aproximadamente dobra no TerminalBench-2.0, RL atinge seu alvo cerca de 2,3× mais rápido, e recupera de 50% a 104% do expert-SFT sem professor. Mesmo sem verifier (recompensa desligada), tarefas retidas melhoram. Mantenha λ pequeno e varra; o sinal denso overfita se forçado (um modelo aberto colapsou em 0,05 e ficou estável em 0,005).

Gráfico: held-out pass@1 dobra com ECHO

Você pode ver o mecanismo em um laptop em cerca de 40 segundos: um modelo pequeno em um ambiente terminal determinístico toy leva a cross-entropy dos tokens de ambiente retidos em direção a zero. Ela chega a zero apenas porque esse mundo é totalmente previsível; um ambiente real mantém sua entropia irredutível (próximo a 4,4 nats), então o ECHO afina previsões em vez de aperfeiçoá-las. Reproduza: OpenEnv examples/echo_world_model, python train_echo.py --steps 60 --seed 0.

E isso se mantém no caminho gerenciado. Como aprendizado supervisionado nos tokens de observação é apenas RL com vantagem positiva constante, não há segunda função de perda: você reusa o mesmo forward_backward e adiciona uma pequena vantagem positiva λ nos tokens de ambiente. Um vetor muda, e a mesma configuração de uma linha roda no SkyRL de referência aberto, no Tinker e no pós-treinamento Foundry inalterados. Rodamos ao vivo com um pequeno modelo Qwen, e também roda com MAI-Reasoning-1-Flash; as métricas de backend retornaram namespaced skyrl.ai, o stack de referência aberto rodando por baixo do serviço gerenciado.

O loop que melhora a si mesmo: RSI

Uma última razão para possuir o ambiente, não apenas o modelo: o ginásio é onde a composição começa. Uma vez que seu workflow, ferramentas e rubrica vivem em um RLE OpenEnv, os mesmos dados de trace que pós-treinam o modelo também podem melhorar o próprio ambiente. O roadmap do OpenEnv aponta diretamente para isso: uma família de designs de auto-melhoria do ginásio: currículos que geram tarefas mais difíceis à medida que o agente melhora, otimizadores de harness e novos ambientes construídos automaticamente a partir de traces de produção capturados. Isso é recursive self-improvement (RSI) em ação. O sistema escreve seu próprio próximo conjunto de exercícios, e cada ciclo aguça o próximo. O aprendizado não se acumula apenas nos pesos; acumula-se no ginásio, que é a parte que você possui.

Comece a construir o loop que é seu

Volte ao topo. Codifique seu workflow e seu resultado em um RLE compatível com OpenEnv, e você tem um sistema de aprendizado de hill-climbing genuinamente seu: aberto, interoperável e orientado a resultados. Melhore primeiro do jeito barato (ajuste prompt, skills, tools e escolha de modelo com o Agent Optimizer e ideias do SkillOpt), depois do jeito profundo quando a economia justificar (pós-treine os pesos, com ECHO transformando os 89% descartados de suas trajetórias em um world model gratuito). O modelo no meio é uma peça que você pode trocar; o loop ao redor é o ativo que compõe quanto mais tempo roda.

O on-ramp gerenciado é o Frontier Tuning: performance de nível frontier com eficiência de token superior, melhorado através do uso real no Foundry e no Copilot, e protegido dentro do seu próprio ambiente. Adotantes iniciais como McKinsey, Bristol Myers Squibb e Land O’Lakes já estão construindo com ele.

O caminho mais rápido é uma parceria. Pergunte ao seu Microsoft Forward-Deployed Engineer (FDE) ou à sua equipe de conta Microsoft para engajar, e construa RLEs compatíveis com OpenEnv e sistemas de aprendizado orientados a resultados onde o modelo é intercambiável e o aprendizado permanece seu.

Construa no Foundry: Frontier Tuning · Agent Optimizer · Hosted Agents · Foundry IQ · Toolboxes · Managed Compute · What’s new at Build 2026

Perguntas Frequentes

  • O que é um RLE (Reinforcement Learning Environment) e por que devo me importar?
    Um RLE é um simulador do seu processo de negócio — o fluxo, as ferramentas, os dados — onde o agente pode praticar e ser avaliado. Ele já contém a rubrica de sucesso. Para uma empresa brasileira, isso significa testar um agente de atendimento ou de compliance em um ambiente controlado antes de ir para produção, reduzindo riscos e custos de erro.

  • Qual a diferença entre aprendizado não paramétrico e paramétrico?
    O não paramétrico mantém os pesos do modelo congelados e melhora o prompt, skills e tools — rápido, barato, sem GPUs. O paramétrico ajusta os pesos via pós-treinamento (ex.: fine-tuning ou ECHO), ideal quando a economia de servir e a soberania do modelo justificam o investimento. Comece sempre pelo primeiro.

  • O que é ECHO e como ele gera aprendizado 'grátis'?
    ECHO é uma técnica que adiciona uma perda de cross-entropy nos tokens de observação do ambiente durante o RL. Como 89% dos tokens de um episódio são observações (ações do ambiente), isso transforma dados que seriam descartados em sinal de treinamento, dobrando a performance em tarefas novas sem rodadas extras.

  • Como o OpenEnv se encaixa nessa estratégia?
    OpenEnv é um protocolo aberto que permite que qualquer modelo, harness, trainer e ambiente se componham de forma intercambiável. A Microsoft contribuiu com um provedor de sandbox ACA e o RFC do ECHO. Para o mercado brasileiro, isso evita vendor lock-in e permite usar diferentes provedores de nuvem ou modelos locais.

  • Isso é relevante para empresas que não têm time de pesquisa em IA?
    Sim. O Foundry oferece pós-treinamento gerenciado (Tinker) que roda nos GPUs da Microsoft — você escreve o loop, eles cuidam do hardware. Além disso, a otimização não paramétrica (Agent Optimizer) não exige expertise em ML. O ecossistema OpenEnv permite começar pequeno e escalar conforme a maturidade.


Artigo originalmente publicado por Govind Kamtamneni em Azure Updates - Latest from Azure Charts.

Gostou? Compartilhe:
Precisa de ajuda?Fale com nossos especialistas 👋
Avatar Walcew - Headset