A promessa da cibersegurança assistida por IA sempre esbarrou em um problema fundamental de medição: como validar se um agente de IA consegue realizar, de fato, o trabalho complexo e de múltiplas etapas que analistas de segurança executam diariamente? Os benchmarks tradicionais focam no que conhecemos como parametric knowledge — testando se o modelo consegue identificar técnicas listadas no MITRE ATT&CK ou classificar táticas a partir de relatórios. No entanto, eles falham na pergunta mais crítica: o agente consegue traduzir threat intelligence bruta em regras de detecção prontas para produção que, de fato, identifiquem ataques reais?
A Microsoft Research endereçou essa lacuna com o CTI-REALM (Cyber Threat Intelligence Real World Evaluation and LLM Benchmarking), um benchmark open-source que avalia agentes de IA em fluxos de trabalho completos de detection engineering. Disponibilizado em março de 2026, o CTI-REALM mede a capacidade dos agentes de processar relatórios de threat intelligence, explorar esquemas de telemetria, refinar iterativamente queries KQL (Kusto Query Language) e gerar regras Sigma e lógica de detecção validadas — replicando exatamente o workflow técnico necessário para operar plataformas como o Microsoft Sentinel.
Por que os Benchmarks Tradicionais não bastam
Os modelos atuais de avaliação em IA focam em habilidades isoladas. Embora úteis, eles não refletem a necessidade operacional dos times de segurança: transformar inteligência narrativa em lógica de detecção funcional. O CTI-REALM preenche essa lacuna com três dimensões fundamentais:
- Operacionalização sobre a simples memorização: Os agentes são testados em sua capacidade de entregar regras Sigma e queries KQL que funcionam contra telemetria de ataques reais, e não apenas respondendo questões de múltipla escolha.
- Avaliação do Workflow completo: O benchmark pontua a qualidade das decisões intermediárias (seleção de relatórios CTI, mapeamento de técnicas MITRE, identificação de fontes de dados e refinamento de query), indo além do resultado final.
- Tooling Realista: Os agentes operam em um ambiente que espelha o dia a dia do engenheiro de detecção, utilizando CTI repositories, schema explorers, engines de query e bases MITRE ATT&CK.
Este nível de granularidade é valioso para líderes de segurança, pois permite diagnosticar onde o agente falha no pipeline: se é uma falha de compreensão, um erro na construção da query ou uma dificuldade com a especificidade da detecção.
O Benchmark na Prática: CTI e Ambientes Azure
O dataset utilizado conta com 37 relatórios de CTI de fontes como Microsoft Security, Datadog Security Labs, Palo Alto Networks e Splunk, rodados em sandboxes que simulam ambientes reais. O escopo abrange três pilares cruciais para a infraestrutura cloud:
- Linux endpoints: Escenarios clássicos de host-based detection.
- Azure Kubernetes Service (AKS): Focado em ataques nas camadas de orquestração e containers.
- Azure cloud infrastructure: Ataques do tipo APT que exigem correlação complexa, cruzando logs de identidade, recursos e rede.
Principais descobertas: O que funciona e onde atuar
A avaliação de modelos de fronteira no ambiente CTI-REALM-50 revelou dados importantes para o mercado brasileiro:
- Complexidade ainda é um gargalo: Enquanto detecções de endpoints Linux tiveram sucesso razoável (0.585), a pontuação despencou (0.282) em cenários de infraestrutura cloud Azure. Isso confirma que a correlação de múltiplas fontes — algo comum no dia a dia do SOC que investiga ataques multi-stage — continua sendo uma tarefa de alta complexidade para a IA.
- "O excesso de raciocínio" pode atrapalhar: Identificou-se que configurações de "médio raciocínio" superaram os modos de "alto raciocínio". Em ambientes ricos em ferramentas e interações, o overthinking pode prejudicar a performance do agente.
- Workflow Guidance importa: Instruir modelos menores com diretrizes de processo (workflow guidance) reduziu em cerca de um terço o gap de performance comparado a modelos muito maiores.
O que isso significa para a Operação de Segurança (SOCs)
Para times que operam com Microsoft Sentinel e abordagens de Shift-Left, o CTI-REALM reforça que agentes de IA são ferramentas de aumento de capacidade (analyst augmentation), não de substituição humana.
Tabela Comparativa: Engenharia de Detecção
| Engenharia de Detecção Tradicional | Engenharia de Detecção Assistida por IA |
|---|---|
| O analista lê o relatório manualmente | Agente de IA analisa e extrai técnicas |
| O analista mapeia técnicas MITRE | O agente mapeia automaticamente |
| O analista escreve queries KQL | O agente itera em queries via schema tools |
| O analista valida contra dados de teste | Agente gera Sigma/KQL validada contra telemetria |
| Processo leva horas ou dias | Processo leva minutos (com validação humana) |
Adoção Responsável: Human-in-the-Loop é Inegociável
A pesquisa da Microsoft reafirma que as regras geradas por IA devem passar por validação rigorosa antes de entrarem em produção. Recomendamos que times de engenharia e segurança adotem políticas de governança claras:
- Validação de KQL: Toda query gerada por IA deve ser testada contra datasets de controle antes de ser ativada nas regras de analytics do Sentinel.
- Peer Review: Infraestrutura cloud é onde a performance dos modelos ainda é mais incerta; mantenha revisão humana obrigatória para detecções que afetem o núcleo cloud.
- Metadata de Origem: Monitore e registre se a regra foi gerada por humano ou IA para garantir contexto claro durante processos de Incident Response.
O CTI-REALM sinaliza uma mudança fundamental: a indústria está deixando de focar apenas em "memória" de IA para focar em "competência operacional". Para arquitetos de segurança, essa é a métrica correta para avaliar a maturidade de qualquer solução de Security Copilot.
Artigo originalmente publicado em Azure Updates - Latest from Azure Charts.