23 de abril de 20264 min de leitura

Análise Técnica: Suporte a pastas aninhadas em Shortcut Transformations no Microsoft Fabric

Premal Shah

Azure

Banner - Análise Técnica: Suporte a pastas aninhadas em Shortcut Transformations no Microsoft Fabric

Historicamente, arquiteturas de data lake raramente operam em estruturas "flat". A realidade de engenharia de dados em empresas brasileiras envolve hierarquias complexas de pastas, particionadas por data, região, origem da aplicação ou unidades de negócio. Até então, o recurso de shortcut transformations no Microsoft Fabric limitava-se ao processamento de um único nível, obrigando equipes de engenharia a configurar múltiplos jobs ou pipelines para cobrir subdiretórios, o que aumentava significativamente a carga operacional e o risco de inconsistência.

Com a disponibilidade geral (GA) do suporte a pastas aninhadas (nested folders), o Fabric amplia o conceito de zero-ETL, permitindo a descoberta e transformação recursiva de arquivos em toda a hierarquia de diretórios. Para times que buscam eficiência em infraestrutura cloud, isso significa abandonar a necessidade de configurar workloads de processamento individual para cada subpasta, centralizando a lógica em uma única definição que escala conforme o data lake cresce.

O impacto real para a engenharia de dados

O grande diferencial desta atualização não é apenas a automação, mas a capacidade de lidar com o dinamismo dos ambientes produtivos. Em um data lake onde o volume de vendas cresce mês a mês, com novas subdivisões temporais surgindo automaticamente, a configuração anterior exigia intervenção manual constante. Agora, ao apontar a shortcut transformation para uma pasta raiz, o sistema assume a descoberta recursiva, a detecção incremental de mudanças e a aplicação consistente de regras de schema para todos os arquivos encontrados.

Capacidades técnicas e pontos de atenção

  • Recursive Change Detection: O sistema processa apenas arquivos novos ou alterados, o que é fundamental para manter o custo de computação e a latência sob controle em grandes volumes.
  • Automatic Partition Pickup: Essencial para arquiteturas de ingestion contínuo. Novos diretórios de partição criados por processos upstream são integrados automaticamente sem necessidade de rollback ou recalibração das pipelines.
  • Directory Structure Preservation: A integridade do caminho da fonte para o Delta table de destino é mantida. Isso simplifica a governança e o rastreamento (lineage) dos dados na nuvem.
  • Segurança contra ciclos: Um ponto crucial de engenharia é a prevenção de shortcuts recursivos infinitos. O Fabric bloqueia a travessia de shortcuts existentes dentro do alvo, processando apenas diretórios físicos, o que mitiga riscos de ciclos e duplicação indevida de dados.

Como implementar

Ao criar um novo table shortcut no seu Lakehouse:

  1. Selecione a pasta de nível superior que contém seus dados brutos.
  2. Certifique-se de que a opção "Include subfolders" esteja ativa (ela é o padrão, permitindo a recursividade).
  3. Configure os delimitadores, headers e o nome da tabela. O sistema aplicará essa lógica universalmente na hierarquia.

Selecionando pasta de origem no assistente de shortcut do OneLake no Microsoft Fabric

Figura: Selecionando uma pasta de origem no assistente de criação de shortcut no OneLake.

Opção de subpasta durante a criação do shortcut

Figura: Opção de subpasta durante a criação do shortcut.

É importante notar que shortcuts criados antes desta atualização terão o processamento recursivo desabilitado por padrão. Caso precise de uma execução mais granular, a opção pode ser desmarcada, permitindo um controle fino sobre quais estruturas devem ser processadas recursivamente ou apenas no nível raiz.

Propriedades do shortcut mostrando status de inclusão de subpastas

Figura: Propriedades do shortcut mostrando o status de transformação com subpastas.

Esta mudança simplifica drasticamente a arquitetura de storage e reduz a dívida técnica acumulada em data pipelines manuais. Para empresas que dependem de alta disponibilidade e escalabilidade de dados, o uso de nested folders é o próximo passo lógico para estabilizar a camada de storage dentro do Microsoft Fabric.


Artigo originalmente publicado por Premal Shah em Azure Updates - Latest from Azure Charts.

Gostou? Compartilhe:
Precisa de ajuda?Fale com nossos especialistas 👋
Avatar Walcew - Headset