Historicamente, arquiteturas de data lake raramente operam em estruturas "flat". A realidade de engenharia de dados em empresas brasileiras envolve hierarquias complexas de pastas, particionadas por data, região, origem da aplicação ou unidades de negócio. Até então, o recurso de shortcut transformations no Microsoft Fabric limitava-se ao processamento de um único nível, obrigando equipes de engenharia a configurar múltiplos jobs ou pipelines para cobrir subdiretórios, o que aumentava significativamente a carga operacional e o risco de inconsistência.
Com a disponibilidade geral (GA) do suporte a pastas aninhadas (nested folders), o Fabric amplia o conceito de zero-ETL, permitindo a descoberta e transformação recursiva de arquivos em toda a hierarquia de diretórios. Para times que buscam eficiência em infraestrutura cloud, isso significa abandonar a necessidade de configurar workloads de processamento individual para cada subpasta, centralizando a lógica em uma única definição que escala conforme o data lake cresce.
O impacto real para a engenharia de dados
O grande diferencial desta atualização não é apenas a automação, mas a capacidade de lidar com o dinamismo dos ambientes produtivos. Em um data lake onde o volume de vendas cresce mês a mês, com novas subdivisões temporais surgindo automaticamente, a configuração anterior exigia intervenção manual constante. Agora, ao apontar a shortcut transformation para uma pasta raiz, o sistema assume a descoberta recursiva, a detecção incremental de mudanças e a aplicação consistente de regras de schema para todos os arquivos encontrados.
Capacidades técnicas e pontos de atenção
- Recursive Change Detection: O sistema processa apenas arquivos novos ou alterados, o que é fundamental para manter o custo de computação e a latência sob controle em grandes volumes.
- Automatic Partition Pickup: Essencial para arquiteturas de ingestion contínuo. Novos diretórios de partição criados por processos upstream são integrados automaticamente sem necessidade de rollback ou recalibração das pipelines.
- Directory Structure Preservation: A integridade do caminho da fonte para o Delta table de destino é mantida. Isso simplifica a governança e o rastreamento (lineage) dos dados na nuvem.
- Segurança contra ciclos: Um ponto crucial de engenharia é a prevenção de shortcuts recursivos infinitos. O Fabric bloqueia a travessia de shortcuts existentes dentro do alvo, processando apenas diretórios físicos, o que mitiga riscos de ciclos e duplicação indevida de dados.
Como implementar
Ao criar um novo table shortcut no seu Lakehouse:
- Selecione a pasta de nível superior que contém seus dados brutos.
- Certifique-se de que a opção "Include subfolders" esteja ativa (ela é o padrão, permitindo a recursividade).
- Configure os delimitadores, headers e o nome da tabela. O sistema aplicará essa lógica universalmente na hierarquia.
Figura: Selecionando uma pasta de origem no assistente de criação de shortcut no OneLake.
Figura: Opção de subpasta durante a criação do shortcut.
É importante notar que shortcuts criados antes desta atualização terão o processamento recursivo desabilitado por padrão. Caso precise de uma execução mais granular, a opção pode ser desmarcada, permitindo um controle fino sobre quais estruturas devem ser processadas recursivamente ou apenas no nível raiz.
Figura: Propriedades do shortcut mostrando o status de transformação com subpastas.
Esta mudança simplifica drasticamente a arquitetura de storage e reduz a dívida técnica acumulada em data pipelines manuais. Para empresas que dependem de alta disponibilidade e escalabilidade de dados, o uso de nested folders é o próximo passo lógico para estabilizar a camada de storage dentro do Microsoft Fabric.
Artigo originalmente publicado por Premal Shah em Azure Updates - Latest from Azure Charts.