TL;DR
Este artigo propõe uma alternativa arquitetural da Azure aos runtimes de agentes proprietários, focando na composição de serviços existentes: App Service, API Management e MCP. A conclusão principal é que a governança — via rate limiting e caching — é o verdadeiro valor entregue pelo Gateway, permitindo que os times de engenharia mantenham a liberdade de utilizar qualquer framework de agentes, garantindo escalabilidade e controle centralizado.
A conversa sobre infraestrutura para agentes mudou. Soluções como o Amazon Bedrock AgentCore oferecem facilidades, mas amarram o desenvolvedor a runtimes proprietários. A resposta da Azure é a composibilidade.
O stack composável
Três pilares sustentam esta arquitetura:
- APIM como autoridade de acesso e governança.
- App Service como runtime genérico para seus containers.
- MCP como padrão de ferramentas para interoperabilidade.
A política: onde a mágica acontece
O segredo está no XML de políticas do APIM. Ao centralizar as configurações de azure-openai-token-limit, azure-openai-semantic-cache-lookup e azure-openai-emit-token-metric, removemos a responsabilidade de 'gestão de IA' do código de negócio.
Por que essa abordagem é superior?
- Padrões abertos: Interoperabilidade garantida pelo MCP.
- Zero Lock-in: Troque de framework de orquestração sem alterar a camada de governança.
- Enterprise Ready: Herda a robustez do App Service (VNet integration, Private Endpoints).