26 de maio de 20268 min de leitura

Como o Jaeger está evoluindo para tracear agentes de IA com OpenTelemetry

Jonah Kowall, Project Maintainer for Jaeger

Cloud Native Computing Foundation

À medida que arquiteturas de software evoluem, ferramentas de observabilidade precisam se adaptar. Quando o mercado migrou para microsserviços, o tracing distribuído se tornou essencial — e o Jaeger emergiu como uma ferramenta central para engenheiros entenderem sistemas fragmentados. Agora, com organizações integrando aplicações de IA generativa e agentes autônomos em produção, os requisitos de tracing estão mudando novamente. Mapear o caminho de execução de um agente de IA envolve montagem de prompts, consultas a bancos vetoriais e múltiplas chamadas a ferramentas externas.

TL;DR: Este artigo analisa a evolução do Jaeger para tracear aplicações de IA generativa e agentes autônomos. Com o Jaeger v2, o projeto adota o OpenTelemetry nativamente e integra os protocolos MCP, ACP e AG-UI, criando um ambiente onde engenheiros e agentes de IA colaboram na depuração de sistemas distribuídos. A conclusão principal: times brasileiros devem se preparar para essa nova camada de observabilidade, que exige domínio de padrões abertos e flexibilidade entre modelos locais e em nuvem para análise de traces.

“Ao adotar o Model Context Protocol (MCP), Agent Client Protocol (ACP) e Agent–User Interaction Protocol (AG-UI), o projeto está construindo um ambiente onde engenheiros e agentes de IA podem colaborar.”

O Jaeger está evoluindo para lidar com essas novas cargas de trabalho. Essa transição envolve duas fases principais. Primeiro, o projeto reconstruiu sua arquitetura central no Jaeger v2 para integrar nativamente o OpenTelemetry. Em segundo lugar, o Jaeger está expandindo além da visualização padrão de dados. Ao adotar o Model Context Protocol (MCP), Agent Client Protocol (ACP) e Agent–User Interaction Protocol (AG-UI), o projeto está construindo um ambiente onde engenheiros e agentes de IA podem colaborar. Isso ajuda a mapear os complexos caminhos de execução de pipelines de IA que frequentemente desafiam os limites das ferramentas tradicionais de tracing.

Como o Jaeger v2 prepara o terreno para tracing de IA?

Gerenciar workloads de IA requer um pipeline de coleta de dados eficiente. Essa necessidade guiou as mudanças arquiteturais detalhadas no post do blog da CNCF, Jaeger v2 released: OpenTelemetry in the core!

O Jaeger v2 substitui seus mecanismos originais de coleta pelo framework OpenTelemetry Collector. Essa abordagem consolida métricas, logs e traces em um modelo de deploy unificado. Ao ingerir nativamente o OpenTelemetry Protocol (OTLP), o sistema elimina etapas intermediárias de tradução, melhorando a performance de ingestão. Essa integração com OpenTelemetry fornece a base de dados necessária para funcionalidades de tracing mais avançadas.

Como engenheiros e agentes de IA colaboram na depuração?

Baseando-se no Jaeger v2, o projeto está explorando novas formas de equipes analisarem sistemas distribuídos. O objetivo é facilitar a colaboração entre engenheiros e agentes de IA durante a depuração. Colaboradores do programa CNCF LFX Mentorship e do Google Summer of Code (GSoC) estão ativamente conduzindo esse trabalho.

Para suportar a integração de IA, o Jaeger está adotando três padrões abertos: Model Context Protocol (MCP), Agent Client Protocol (ACP) e Agent–User Interaction Protocol (AG-UI). O MCP padroniza como modelos de IA acessam fontes de dados externas de forma segura. O ACP fornece um método uniforme para interfaces de usuário se comunicarem com agentes de IA e sidecars. Juntos, eles permitem que o Jaeger funcione como um workspace interativo.

Como funciona a camada de protocolo backend?

A implementação técnica começa no backend. Estamos construindo uma camada Agent Client Protocol para atuar como um tradutor stateless entre o frontend do Jaeger e sidecars externos de IA. O design e o proof of concept estão documentados na issue #8252 (Implement AG-UI to ACP Jaeger AI) e na issue #8295 (Implement ACP-based AI handler) do repositório Jaeger.

Diagrama da camada Agent Client Protocol no Jaeger v2

(Ou o diagrama em mermaid:

graph LR
  J_UI["Jaeger UI"]
  AI_A["AI Agent"]
  subgraph JAEGER["Jaeger v2"]
    AGW["Agent Gateway"]
    JMCP["Jaeger MCP"]
  end
 
  J_UI -- "AG-UI Protocol" --> AGW
  AGW -- "ACP Protocol" --> AI_A
  AGW -- "MCP Protocol" <--> JMCP

)

Tradicionalmente, respondedores de incidentes constroem consultas filtrando manualmente serviços e tags. A integração com ACP permite que o backend interprete restrições em linguagem natural (como identificar erros 500 em um serviço de pagamento com latência superior a 2 segundos) e as traduza em consultas determinísticas de trace. Organizações podem configurar esse backend para usar LLMs em nuvem para raciocínio complexo ou SLMs locais para privacidade estrita de dados. Ao restringir a IA à tradução de protocolo e geração de queries, a arquitetura minimiza riscos de alucinações associadas a chatbots abertos.

Como o workspace colaborativo da UI se conecta ao backend?

A interface de usuário do Jaeger também está sendo atualizada para suportar essa lógica backend. Conforme acompanhado na issue #3313 do frontend, estamos migrando do legado Redux para Zustand + React Query. O frontend introduz um assistente in-app alimentado por assistant-ui + AG-UI. A UI usa eventos streaming para enviar contexto de trace (como logs de erro e tags key-value) para o gateway backend. Isso permite que engenheiros peçam ao assistente para resumir um caminho de falha dentro de um span específico, reduzindo a necessidade de revisar manualmente linhas de log durante um incidente.

Como o Jaeger visualiza caminhos de execução GenAI?

Além de usar IA para analisar traces padrão, o projeto está adicionando suporte para tracear as próprias aplicações de IA. Descrito na issue #8401 (GenAI integration), esse trabalho foca em visualizar as convenções semânticas GenAI em rápida evolução da OpenTelemetry. A comunidade OpenTelemetry está atualmente redigindo especificações para padronizar telemetria para esses workflows altamente dinâmicos. Iniciativas-chave incluem rascunhos emergentes para Generative AI Agentic Systems (Issue #2664) para rastrear tarefas, memória e ações, e convenções para AI Sandboxes (Issue #3583) para monitorar ambientes efêmeros de execução de código.

“O Jaeger mapeará essas novas operações padrão na UI para fornecer visibilidade clara sobre caminhos de execução de IA sem prender equipes a formatos proprietários de vendors.”

Desenvolvedores construindo pipelines de Retrieval-Augmented Generation (RAG) e agentes autônomos precisam medir latência de modelos embedding, rastrear chamadas a ferramentas externas e monitorar consumo de tokens. O Jaeger mapeará essas novas operações padrão na UI para fornecer visibilidade clara sobre caminhos de execução de IA sem prender equipes a formatos proprietários de vendors.

Como manter observabilidade unificada do teste local à produção?

Manter consistência entre ambientes de teste e produção é um desafio prático. O Jaeger originalmente popularizou um executável “all-in-one” para simplificar testes locais. Como o Jaeger v2 é construído sobre o OpenTelemetry Collector, desenvolvedores executam o mesmo binário tanto localmente quanto em produção. Durante os testes, engenheiros podem rodar o container Jaeger v2 com um SLM local, criando um sandbox privado para testar traces de IA generativa ou depurar integrações ACP sem expor dados a APIs externas. Em produção, times de plataforma fazem o deploy do mesmo binário unificado, frequentemente usando ferramentas como o OpenTelemetry Operator para Kubernetes. Organizações podem então substituir o SLM local por um LLM maior em nuvem para análise de incidentes em produção, garantindo que configurações de tracing permaneçam consistentes do desenvolvimento ao deploy.

O que esperar do futuro do Jaeger?

Os requisitos de tracing estão mudando para acomodar a complexidade das aplicações de IA. Ao estabelecer uma base sólida em OpenTelemetry com o Jaeger v2 e integrar os padrões MCP e ACP, o projeto está adaptando suas capacidades centrais. Esse caminho técnico viabiliza um workflow prático onde engenheiros humanos e agentes de IA colaboram para diagnosticar falhas em sistemas distribuídos.

Perguntas Frequentes

  • Como o Jaeger lida com privacidade de dados ao usar modelos de linguagem para tracing?
    O Jaeger permite configurar o backend para usar modelos de linguagem pequenos (SLMs) locais em ambientes de teste ou produção, mantendo os dados dentro da infraestrutura da empresa. Em produção, pode-se trocar por LLMs em nuvem, mas a arquitetura restringe a IA à tradução de consultas e geração de queries, minimizando riscos de alucinações.

  • Quais protocolos o Jaeger adota para integrar IA e quais suas funções?
    O Jaeger adota três protocolos abertos: Model Context Protocol (MCP) para acesso seguro a fontes de dados externas por modelos de IA; Agent Client Protocol (ACP) para comunicação entre interfaces de usuário e agentes de IA; e Agent–User Interaction Protocol (AG-UI) para colaboração entre engenheiros e agentes. Juntos, transformam o Jaeger em um workspace interativo.

  • O Jaeger v2 é compatível com ambientes Kubernetes?
    Sim. O Jaeger v2 é construído sobre o OpenTelemetry Collector, o que permite uso do OpenTelemetry Operator para Kubernetes. O mesmo binário pode ser executado localmente e em produção, garantindo consistência de configuração entre ambientes de teste e produção.

  • Como o Jaeger visualiza pipelines RAG e agentes autônomos?
    O Jaeger está implementando suporte às convenções semânticas da OpenTelemetry para sistemas de IA generativa (GenAI), incluindo rastreamento de latência de modelos embedding, chamadas a ferramentas externas e consumo de tokens. Esses dados serão mapeados na interface do Jaeger sem depender de formatos proprietários de vendors.


Artigo originalmente publicado por Jonah Kowall, Project Maintainer for Jaeger em Cloud Native Computing Foundation.

Gostou? Compartilhe:
Precisa de ajuda?Fale com nossos especialistas 👋
Avatar Walcew - Headset