2 de junho de 202610 min de leitura

Foundry IQ: como as knowledge bases melhoram o recall de evidências em até 54%

MattGotteiner

Azure

Banner - Foundry IQ: como as knowledge bases melhoram o recall de evidências em até 54%

A Foundry IQ (motor de busca da Azure AI Search) acaba de receber uma atualização significativa em seu mecanismo de agentic retrieval. O resultado prático para quem desenvolve AI agents corporativos: respostas mais completas, menor consumo de tokens e uma redução drástica na taxa de 'não sei'.

TL;DR: A Foundry IQ (Azure AI Search) lançou uma nova versão de suas knowledge bases que substitui o RAG estático por um loop de retrieval agentic. Os ganhos são expressivos: até 54% de melhoria no recall de evidências e 34% de redução no custo de tokens. Para empresas brasileiras que dependem de AI agents com fontes de conhecimento internas, isso significa respostas mais precisas com menor gasto operacional — um trade-off que vale a pena avaliar.

Agentes só são valiosos quando têm acesso ao conhecimento da organização. O ponto de partida comum é dar ao agente uma ferramenta de retrieval para encontrar contexto relevante. Mas o que fazer quando o agente não encontra o contexto necessário?

As knowledge bases do Foundry IQ resolvem esse problema ao orquestrar o retrieval de forma agentic: conectam o agente a uma ou mais fontes de conhecimento, recuperam o contexto necessário e produzem respostas fiéis e precisas. A Microsoft comparou ferramentas de retrieval standalone com as knowledge bases usando o desafiador benchmark BrowseComp-Plus e encontrou:

  • Substituir RAG de etapa única por uma knowledge base melhora o recall de evidências em até 46%.
  • Combinar um modelo de agente menor com retrieval agentic melhora o recall em até 54%, controlando custos e aumentando a responsividade.
  • Em ambos os casos, o número de chamadas de ferramenta de retrieval é reduzido, resultando em 34% de economia de tokens.

Tabela 1: Comparação entre knowledge bases e ferramenta de busca standalone

Tabela 1: Comparação de retrieval orquestrado por agente usando knowledge bases ou uma ferramenta de busca híbrida standalone.

Desde o último lançamento do motor agentic, as melhorias no recall de evidências em conteúdo empresarial multilíngue foram de 10% (minimal), 8% (low) e 9% (medium) nos respectivos níveis de esforço de raciocínio.

Figura 1: Recall médio de evidências

Figura 1: Média de recall de evidências em datasets com fonte única usando gpt-5.4-mini, por nível de esforço de retrieval-reasoning.

Também houve avanços na qualidade das respostas: 20% (minimal), 8% (low) e 10% (medium).

Figura 2: Completude média das respostas

Figura 2: Completude média das respostas em datasets com fonte única usando gpt-5.4-mini.

O que está por trás das melhorias?

  • Retrieval de fonte de conhecimento aprimorado: o workflow estático de orquestração foi substituído por um loop agentic dinâmico. Agora o agente agrupa requisições e customiza consultas para cada fonte, podendo revisar o conteúdo e determinar se novas consultas são necessárias.

Diagrama do loop agentic

  • Ranker semântico melhorado: o modelo de reranking foi retreinado para destacar passagens mais relevantes de grandes coleções de documentos, retornando contexto de maior qualidade com menos passagens irrelevantes.
  • Síntese de respostas aprimorada: as diretrizes de geração foram refinadas para produzir respostas mais completas e estruturadas, sempre ancoradas nas evidências recuperadas.
  • Token caching e eficiência de prompt: as chamadas LLM foram otimizadas para se beneficiar de caching do provedor, reduzindo o processamento sem sacrificar qualidade.
  • Especialização de schema para chamadas MCP: a descrição da ferramenta MCP para knowledge bases agora se adapta automaticamente ao modelo e configuração. Modelos menores recebem orientações mais rígidas para evitar consultas redundantes; modelos maiores têm mais flexibilidade, mas com diretrizes para evitar divisão excessiva de consultas.

Métricas

Em vez de depender apenas de LLM-as-a-judge, a equipe adotou métricas baseadas em ground-truth, inspiradas no TREC 2024 RAG Track. Agora é possível medir: quão bom é o resultado em relação à resposta ideal, o que falta para ser perfeito e qual parcela do ground truth foi coberta. A principal métrica usada é o Evidence Recall — a proporção de nuggets de ground truth cobertos pelos documentos recuperados pelo agente.

Para avaliação agentic, o sistema simula um usuário sem acesso à resposta, que interage com um agente de busca conectado a um índice ou knowledge base. Um juiz independente observa a interação e gera métricas como recall e correção.

Como as knowledge bases equilibram recall e custo?

Desenvolvedores têm trade-offs diferentes entre custo incremental de tokens e ganho de recall. A Microsoft comparou exaustivamente knowledge bases e índices de busca standalone para demonstrar que as knowledge bases operam na fronteira de eficiência:

  • Menor custo: uma knowledge base minimal com gpt-5.4-mini (low reasoning) é mais barata e de maior qualidade que qualquer ferramenta híbrida standalone.
  • Maior recall: uma knowledge base minimal com gpt-5.4 (medium reasoning) oferece o maior recall testado.
  • Equilíbrio: uma knowledge base medium com gpt-5.4 para retrieval e gpt-5.4-mini para orquestração (low reasoning) combina baixo custo com alto recall.

Diagrama de fronteira de Pareto

Figura 3: Diagrama de fronteira de Pareto mostrando custo (tokens) vs cobertura de evidências. Knowledge bases (verde) claramente estão na fronteira de eficiência; opções standalone (vermelho) ficam atrás.

Schemas MCP melhorados para retrieval agentic

As knowledge bases podem ser consultadas via REST API ou como ferramenta MCP. A nova preview apresenta um schema dinamicamente especializado conforme o tamanho do modelo orquestrador e as configurações de retrieval:

  • Variantes por tamanho de modelo: nano, mini e full-size. Modelos menores recebem orientações mais rígidas para preservar termos-chave; modelos maiores ganham flexibilidade, mas com restrições para evitar chamadas desnecessárias.
  • Variantes por modo de retrieval: em minimal, o modelo é direcionado a gerar consultas preservando palavras-chave. Em low e medium, o schema exige delegação completa da tarefa, incluindo todas as restrições.

Como a geração de consultas pelo modelo pode distorcer a intenção?

Considere esta pergunta contábil:

“Para que servem os swaptions no contexto de derivativos não designados e instrumentos derivativos?”

O modelo externo gera a seguinte consulta:

“swaptions usados para atingir uma combinação alvo de dívida de taxa fixa e variável”

A ausência do termo “derivativos não designados” e a adição de “dívida” alteram completamente o alvo da busca. Em vez de documentos sobre tratamento contábil, a busca puxa para taxas de juros. Para o usuário, parece um retrieval ruim, mas a falha oculta está na distorção da tarefa pelo modelo. Esse comportamento é surpreendentemente comum — e é o que esta atualização busca corrigir.

Medindo a precisão da delegação de subagentes

Para medir, a equipe rotulou um dataset de perguntas e follow-ups com a semântica crítica de retrieval (entidades, palavras-chave, unidades, tokens alfanuméricos, filtros). A precisão da delegação é calculada com base nas restrições preservadas na tarefa delegada — penalizando tanto restrições descartadas quanto adicionadas sem suporte.

Resultados: a delegação via knowledge base melhora o recall em todos os datasets

Comparando knowledge bases medium com agentes que usam índice de busca standalone, em mais de 4.000 cenários, as knowledge bases consistentemente melhoram o recall e a correspondência de respostas, além de reduzir o número de tool calls.

Figura 4: Precisão da delegação por turno conversacional
Tabela 2: Comparação entre search agent e knowledge base

Figura 4: Precisão da delegação por turno. Knowledge bases preservam mais semântica crítica que search agents, com gap médio de +0,370.

Tabela 2: resultados por dataset

Tabela 2: Comparação entre search agent e knowledge base em quatro datasets, 4.100 cenários.

As knowledge bases melhoram a qualidade das respostas?

Sim. A Microsoft comparou a qualidade de respostas sintetizadas entre RAG tradicional (BM25, híbrido) e knowledge bases em aproximadamente 3.300 consultas empresariais. As configurações avaliadas:

  • BM25: retrieval por palavras-chave.
  • Híbrido: BM25 + vetorial.
  • Knowledge Bases: Minimal (híbrido + reranking semântico + filtragem de irrelevantes + mesclagem entre índices); Low (Minimal + uma rodada agentic); Medium (até duas rodadas agentic).

Cada nível adicional melhora o stack RAG. O benefício principal é a capacidade de escalar o esforço de retrieval com uma única configuração. No geral, comparado ao BM25, o sistema completo reduz a taxa de 'não sei' em 94,5% e melhora o recall de evidências em 37,9%.

Tabela 3: Valores absolutos das métricas

Tabela 3: Valores absolutos para BM25, Híbrido, knowledge base Minimal, Low e Medium com gpt-5.4-mini.

Retrieval heterogêneo

Muitos cenários empresariais envolvem perguntas que cruzam conteúdo estruturado e não estruturado. A tabela abaixo mostra que as knowledge bases combinam eficazmente diferentes tipos de fontes para impulsionar o recall:

Tabela 4: Recall em fontes heterogêneas

Tabela 4: Evidence recall para HFWIKI (MCP), FABRICIQ-SEC (Fabric), SEC-SQL-Hybrid (SQL).

Como começar?

A nova funcionalidade está disponível hoje na versão preview mais recente da API. Para testar: crie uma knowledge base, conecte uma ou mais fontes de conhecimento e chame a retrieve API com seu nível preferido de retrieval reasoning effort. Saiba mais sobre knowledge bases e agentic retrieval aqui.

Apêndice

Os benchmarks utilizados incluem datasets de clientes (relatórios corporativos, documentos de planos de saúde), DAYI (médico chinês), FDA (rótulos e documentos clínicos), SEC (arquivamentos de empresas públicas), MIML (multissetorial e multilíngue), FreshQA (sensível a atualidade), HFWIKI (documentação Hugging Face + Wikipedia), FABRICIQ-SEC (registros financeiros + SEC), SEC-SQL-Hybrid (metadados estruturados e narrativas) e BrowseComp-Plus (830 consultas verificadas, corpus indexado em chunks de 512 tokens com text-embedding-3-large).

Métricas utilizadas

Métrica O que mede
Evidence Coverage Proporção de nuggets de ground truth cobertos pelos documentos recuperados
Answer Completeness Proporção de nuggets de ground truth presentes na resposta gerada
No Answer Rate Se o modelo se recusou a responder ou retornou "não sei"

Métricas baseadas em ground-truth para avaliar conteúdo recuperado e respostas geradas.

Perguntas Frequentes

  • O que diferencia uma knowledge base de uma ferramenta de busca standalone?
    Enquanto uma ferramenta standalone faz uma única consulta RAG, a knowledge base orquestra um loop agentic: o agente pode refinar a consulta, acionar múltiplas fontes e revisar o conteúdo recuperado, aumentando significativamente o recall de evidências.

  • Como as knowledge bases reduzem o custo de tokens em 34%?
    Elas reduzem o número de chamadas de retrieval tool ao concentrar a busca em um loop mais inteligente, além de usar token caching e prompts mais eficientes, diminuindo o processamento sem perder qualidade.

  • O que significa retrieval reasoning effort e como escolher o nível ideal?
    O esforço de raciocínio de retrieval (minimal, low, medium) controla quantas iterações o agente faz. Minimal é mais barato e rápido, medium oferece maior recall. A escolha depende do trade-off entre custo e acurácia desejada.

  • Esse recurso já está disponível para clientes brasileiros?
    Sim, a funcionalidade está disponível na versão preview mais recente da API do Azure AI Search. Basta criar uma knowledge base, conectar fontes de conhecimento e chamar a retrieve API com o nível de esforço desejado.

  • Como a delegação de consultas evita distorções no retrieval?
    O modelo anterior muitas vezes alterava a intenção da busca ao inserir suposições próprias. As novas knowledge bases preservam termos críticos da consulta original e penalizam tanto a omissão quanto a adição não suportada de restrições, mantendo o foco.


Artigo originalmente publicado por MattGotteiner (Microsoft) em Azure Updates - Latest from Azure Charts.

Gostou? Compartilhe:
Precisa de ajuda?Fale com nossos especialistas 👋
Avatar Walcew - Headset