23 de abril de 20265 min de leitura

Do Alerta à Resposta: A Evolução dos Agentes de IA na Engenharia de Detecção

(autor não identificado)

Azure

A promessa da cibersegurança assistida por IA sempre esbarrou em um problema fundamental de medição: como validar se um agente de IA consegue realizar, de fato, o trabalho complexo e de múltiplas etapas que analistas de segurança executam diariamente? Os benchmarks tradicionais focam no que conhecemos como parametric knowledge — testando se o modelo consegue identificar técnicas listadas no MITRE ATT&CK ou classificar táticas a partir de relatórios. No entanto, eles falham na pergunta mais crítica: o agente consegue traduzir threat intelligence bruta em regras de detecção prontas para produção que, de fato, identifiquem ataques reais?

A Microsoft Research endereçou essa lacuna com o CTI-REALM (Cyber Threat Intelligence Real World Evaluation and LLM Benchmarking), um benchmark open-source que avalia agentes de IA em fluxos de trabalho completos de detection engineering. Disponibilizado em março de 2026, o CTI-REALM mede a capacidade dos agentes de processar relatórios de threat intelligence, explorar esquemas de telemetria, refinar iterativamente queries KQL (Kusto Query Language) e gerar regras Sigma e lógica de detecção validadas — replicando exatamente o workflow técnico necessário para operar plataformas como o Microsoft Sentinel.

Por que os Benchmarks Tradicionais não bastam

Os modelos atuais de avaliação em IA focam em habilidades isoladas. Embora úteis, eles não refletem a necessidade operacional dos times de segurança: transformar inteligência narrativa em lógica de detecção funcional. O CTI-REALM preenche essa lacuna com três dimensões fundamentais:

  • Operacionalização sobre a simples memorização: Os agentes são testados em sua capacidade de entregar regras Sigma e queries KQL que funcionam contra telemetria de ataques reais, e não apenas respondendo questões de múltipla escolha.
  • Avaliação do Workflow completo: O benchmark pontua a qualidade das decisões intermediárias (seleção de relatórios CTI, mapeamento de técnicas MITRE, identificação de fontes de dados e refinamento de query), indo além do resultado final.
  • Tooling Realista: Os agentes operam em um ambiente que espelha o dia a dia do engenheiro de detecção, utilizando CTI repositories, schema explorers, engines de query e bases MITRE ATT&CK.

Este nível de granularidade é valioso para líderes de segurança, pois permite diagnosticar onde o agente falha no pipeline: se é uma falha de compreensão, um erro na construção da query ou uma dificuldade com a especificidade da detecção.

O Benchmark na Prática: CTI e Ambientes Azure

O dataset utilizado conta com 37 relatórios de CTI de fontes como Microsoft Security, Datadog Security Labs, Palo Alto Networks e Splunk, rodados em sandboxes que simulam ambientes reais. O escopo abrange três pilares cruciais para a infraestrutura cloud:

  • Linux endpoints: Escenarios clássicos de host-based detection.
  • Azure Kubernetes Service (AKS): Focado em ataques nas camadas de orquestração e containers.
  • Azure cloud infrastructure: Ataques do tipo APT que exigem correlação complexa, cruzando logs de identidade, recursos e rede.

Principais descobertas: O que funciona e onde atuar

A avaliação de modelos de fronteira no ambiente CTI-REALM-50 revelou dados importantes para o mercado brasileiro:

  • Complexidade ainda é um gargalo: Enquanto detecções de endpoints Linux tiveram sucesso razoável (0.585), a pontuação despencou (0.282) em cenários de infraestrutura cloud Azure. Isso confirma que a correlação de múltiplas fontes — algo comum no dia a dia do SOC que investiga ataques multi-stage — continua sendo uma tarefa de alta complexidade para a IA.
  • "O excesso de raciocínio" pode atrapalhar: Identificou-se que configurações de "médio raciocínio" superaram os modos de "alto raciocínio". Em ambientes ricos em ferramentas e interações, o overthinking pode prejudicar a performance do agente.
  • Workflow Guidance importa: Instruir modelos menores com diretrizes de processo (workflow guidance) reduziu em cerca de um terço o gap de performance comparado a modelos muito maiores.

O que isso significa para a Operação de Segurança (SOCs)

Para times que operam com Microsoft Sentinel e abordagens de Shift-Left, o CTI-REALM reforça que agentes de IA são ferramentas de aumento de capacidade (analyst augmentation), não de substituição humana.

Tabela Comparativa: Engenharia de Detecção

Engenharia de Detecção Tradicional Engenharia de Detecção Assistida por IA
O analista lê o relatório manualmente Agente de IA analisa e extrai técnicas
O analista mapeia técnicas MITRE O agente mapeia automaticamente
O analista escreve queries KQL O agente itera em queries via schema tools
O analista valida contra dados de teste Agente gera Sigma/KQL validada contra telemetria
Processo leva horas ou dias Processo leva minutos (com validação humana)

Adoção Responsável: Human-in-the-Loop é Inegociável

A pesquisa da Microsoft reafirma que as regras geradas por IA devem passar por validação rigorosa antes de entrarem em produção. Recomendamos que times de engenharia e segurança adotem políticas de governança claras:

  • Validação de KQL: Toda query gerada por IA deve ser testada contra datasets de controle antes de ser ativada nas regras de analytics do Sentinel.
  • Peer Review: Infraestrutura cloud é onde a performance dos modelos ainda é mais incerta; mantenha revisão humana obrigatória para detecções que afetem o núcleo cloud.
  • Metadata de Origem: Monitore e registre se a regra foi gerada por humano ou IA para garantir contexto claro durante processos de Incident Response.

O CTI-REALM sinaliza uma mudança fundamental: a indústria está deixando de focar apenas em "memória" de IA para focar em "competência operacional". Para arquitetos de segurança, essa é a métrica correta para avaliar a maturidade de qualquer solução de Security Copilot.


Artigo originalmente publicado em Azure Updates - Latest from Azure Charts.

Gostou? Compartilhe:
Precisa de ajuda?Fale com nossos especialistas 👋
Avatar Walcew - Headset