4 de junho de 20266 min de leitura

Benchmarking Dataflow Gen2: Transformação de dados mais rápida e com custo menor

Banner - Benchmarking Dataflow Gen2: Transformação de dados mais rápida e com custo menor

Benchmarking Dataflow Gen2: Transformação de dados mais rápida e com custo menor

TL;DR: Este artigo analisa os benchmarks do Dataflow Gen2 (CI/CD) divulgados pela Microsoft, que mostram reduções drásticas no tempo de carga (ex.: de 1h42min para 7min em cópia de dados) e custo, graças a funcionalidades como Fast Copy, Modern Evaluator e particionamento. A conclusão principal: empresas brasileiras que ainda usam Dataflow Gen1 ou modelos semânticos tradicionais têm agora um caminho claro para modernizar seus pipelines de dados com melhor performance e menor custo operacional, especialmente quando combinado com Lakehouse e Direct Lake.

Se você ainda não viu, confira o post de Arun Ulag, “Microsoft Build 2026: Building Agentic Apps with Microsoft Fabric and Microsoft Databases”, para uma visão completa dos anúncios da Build nos ecossistemas Fabric e bancos de dados. Mas aqui vamos direto ao ponto: o Dataflow Gen2 (CI/CD) não é apenas uma atualização incremental — os benchmarks mais recentes revelam um salto de ordem de grandeza tanto em custo quanto em performance comparado às gerações anteriores, incluindo Semantic Models.

Diferente do que muitos esperam, a evolução não veio de um único motor mais rápido. O Dataflow Gen2 oferece múltiplas alavancas complementares que você pode ativar conforme a necessidade do workload. Times de engenharia podem começar com as configurações padrão (muitos já veem ganhos imediatos) e depois ativar opções mais especializadas: Fast Copy, quando o gargalo é throughput de ingestão; Modern Evaluator, para lógicas de transformação pesadas; e partitioned compute, quando fontes particionadas permitem paralelismo.

Performance e escala: como funcionam e quando usar cada alavanca

  • Staging: materializa dados uma vez para que queries downstream possam reutilizá-los sem ler a fonte novamente. Ideal para padrões ELT, separando ingestão de transformação.
  • Fast Copy: otimizado para ingestão de grandes volumes no OneLake (Lakehouse) usando um backend de cópia de alta throughput. Perfeito para cenários onde o objetivo é landing rápido com transformações leves.
  • Modern Query Evaluator: um novo motor de execução M que reduz significativamente o tempo de avaliação, especialmente em transformações linha a linha e operações com pouca folding.
  • Partitioned Compute: paraleliza partes da lógica quando o motor consegue particionar a fonte (comum em arquivos), reduzindo o tempo total de refresh.
  • E mais: o Dataflow Gen2 continua adicionando capacidades ao longo do tempo — vale revisitar as opções conforme seus workloads evoluem.

Cenários canônicos: comparando Dataflow Gen1 e Gen2

A tabela abaixo resume os quatro cenários mais comuns e os ganhos observados nos benchmarks:

Cenário Descrição Funcionalidade habilitada Dataflow Gen1 Dataflow Gen2
Cópia de dados Carregar arquivos Parquet consolidados do ADLS Gen2 para um Lakehouse, sem transformações Fast Copy 01:42:18 00:07:43
Heavy data shaping Aplicar filtros, derivações e limpezas não-foldáveis antes do load Modern Evaluator 01:13:44 00:46:15
Combinação de arquivos Combinar e transformar arquivos Parquet particionados em paralelo Partitioned Compute 01:40:57 00:04:48
Padrão ELT Stage dados uma vez, depois executar transformações downstream referenciadas Staging + Fast Copy 02:42:44 00:05:53

Os números falam por si. A mensagem central não é que existe uma única opção melhor, mas que o Dataflow Gen2 dá ao engenheiro múltiplas alavancas para escolher a abordagem certa para cada workload.

O que mudou no Dataflow Gen2 e por que isso importa para empresas brasileiras

A paisagem da transformação de dados no Microsoft Fabric mudou dramaticamente. O Dataflow Gen2 (CI/CD) introduz um motor de avaliação moderno e execução paralelizada, redefinindo os limites de velocidade, escala e eficiência de custo. Para empresas no Brasil que lidam com grandes volumes de dados e precisam de agilidade nas análises, essa evolução significa que é possível reduzir o tempo de processamento sem aumentar o orçamento de CU — e, na verdade, reduzindo-o.

Usando Dataflow Gen2 com Lakehouse e Direct Lake

Combinar o Dataflow Gen2 (CI/CD) com destino Lakehouse desbloqueia o uso direto no Power BI Direct Lake. Isso permite análises em tempo real, acesso direto aos dados e elimina etapas intermediárias de ETL. Os dados transformados em escala são imediatamente consumidos pelo Power BI para insights rápidos — performance e simplicidade em um só pacote.

Por que menor tempo de execução agora também significa menor custo

Desde as melhorias de precificação anunciadas em setembro de 2025 (FabCon Europe), os ganhos de performance se traduzem diretamente em redução de consumo de CU. Em outras palavras, completar a mesma transformação mais rápido significa pagar menos. A figura abaixo ilustra a evolução dos preços do Dataflow Gen2.

Figura: Melhorias de precificação do Dataflow Gen2. (Consulte a documentação oficial para detalhes sobre Standard Compute, High Scale Compute e Fast Copy.)

Principais takeaways

  • Ganhos de ordem de grandeza em performance e custo com Dataflow Gen2 (CI/CD).
  • Múltiplas alavancas: Fast Copy, Modern Evaluator e partitioned compute para diferentes cenários.
  • Lakehouse + Direct Lake desbloqueiam análises em tempo real com simplicidade operacional.
  • Para quem ainda roda Gen1 ou depende de Semantic Models, este é o momento ideal para migrar.

Perguntas Frequentes

  • Quais são os principais ganhos de performance do Dataflow Gen2 em relação ao Gen1?
    Os benchmarks mostram reduções de 1h42min para 7min em cenários de cópia de dados (Fast Copy), de 1h13min para 46min em transformações pesadas (Modern Evaluator) e de 1h40min para menos de 5min em combinação de arquivos particionados (Partitioned Compute). Os ganhos chegam a ordens de magnitude dependendo do cenário.

  • É necessário reescrever as queries existentes no Power Query para aproveitar o Dataflow Gen2?
    Não. Em muitos casos, mover a mesma lógica Power Query para o Dataflow Gen2 com configurações padrão já traz melhorias significativas. Para workloads específicas, é possível habilitar opções como Fast Copy, Modern Evaluator ou particionamento sem alterar a lógica central.

  • Como o Dataflow Gen2 se integra com o Power BI Direct Lake?
    Ao usar Dataflow Gen2 com destino Lakehouse, os dados transformados ficam imediatamente disponíveis para consultas no Power BI Direct Lake, eliminando etapas intermediárias de ETL e permitindo análises em tempo real com baixa latência.

  • O custo realmente diminui com o Dataflow Gen2?
    Sim. Além da redução no tempo de execução, a Microsoft atualizou o modelo de precificação do Dataflow Gen2 em setembro de 2025, de modo que a mesma transformação executada mais rápido consome menos Capacity Units (CU), resultando em menor custo operacional comparado ao Gen1.

  • Quais são as principais alavancas de performance do Dataflow Gen2?
    São quatro: Staging (materialização intermediária para reuso), Fast Copy (ingestão de alto throughput para o OneLake), Modern Query Evaluator (execução otimizada para transformações pesadas) e Partitioned Compute (paralelismo em fontes particionadas, como arquivos). Cada uma se aplica a cenários específicos.


Artigo originalmente publicado em Azure Updates - Latest from Azure Charts.

Gostou? Compartilhe:
Precisa de ajuda?Fale com nossos especialistas 👋
Avatar Walcew - Headset