Do Excel ao Delta Lake: como a ingestão de dados com Shortcut Transformations simplifica pipelines de dados
TL;DR: O novo recurso Excel to Delta no Shortcut Transformations (Preview) do Microsoft Fabric elimina a necessidade de notebooks Spark customizados para ingerir planilhas Excel em tabelas Delta. Com detecção automática de abas, modos de saída combinada ou por aba, validação de schema e sincronização contínua, times de dados podem mover-se de pipelines frágeis e manuais para fluxos escaláveis e de baixo código — um avanço estratégico para empresas brasileiras que dependem de planilhas como fonte primária de dados.
O Excel continua sendo a linguagem universal dos dados de negócios. De relatórios financeiros e previsões de vendas a inventários de estoque e listas de onboarding de RH, organizações possuem bilhões de arquivos Excel carregando dados críticos que precisam fluir para plataformas analíticas. Analistas e times de engenharia de dados recebem arquivos Excel recorrentes de múltiplas fontes — parceiros, sistemas operacionais e usuários de negócio — e precisam ingerir, padronizar e integrar esses dados de forma confiável em plataformas escaláveis para gerar relatórios, governança e análises avançadas.
Apesar de sua onipresença, o Excel sempre foi desafiador para operacionalizar em escala. Ingerir Excel em um lakehouse é mais complexo do que outros formatos devido a:
- Estrutura multi-abas: uma única pasta de trabalho pode conter dezenas de tabelas de dados relacionadas (ou não) entre abas.
- Inconsistência de schema: abas frequentemente variam em colunas, tipos de dados e layout.
- Formatação orientada a negócios: linhas de título, banners, rodapés de resumo, células mescladas e separadores em branco são comuns.
- Falta de parsers nativos: ao contrário de formatos como Parquet ou JSON, Excel requer leitores especializados.
Até agora, isso significava construir e manter notebooks Spark customizados com a biblioteca spark-excel, lidar com iteração manual de abas, costurar lógica de ingestão frágil, gerenciar mapeamentos de schema e manter pipelines ETL. O Shortcut Transformations muda esse cenário.
O que há de novo: Excel para Delta com Shortcut Transformations
Com o Excel to Delta no Shortcut Transformations, você pode ingerir pastas de trabalho Excel multi-abas em tabelas Delta sem escrever uma única linha de código. A mesma experiência low-code que já impulsiona ingestão de CSV, Parquet e JSON agora se estende a arquivos .xlsx e .xls.
- Descoberta automática de abas: Shortcut Transformations lê os metadados da pasta de trabalho e descobre todos os nomes de abas automaticamente.
- Processamento multi-aba: processe todas as abas, abas específicas por nome, por índice ou use padrões curinga (Sales_*) para corresponder dinamicamente.
- Dois modos de saída:
- Tabela Combinada: todas as abas mescladas em uma única tabela Delta com colunas de metadados para rastreabilidade total.
- Tabela por Aba: cada aba se torna sua própria tabela Delta (ex: sales/January, sales/February), com abas de mesmo nome de diferentes arquivos consolidadas automaticamente.
- Inferência automática de schema e schema drift: nomes de colunas e tipos de dados são inferidos de cada aba. O schema é validado entre abas; incompatibilidades são detectadas, registradas e tratadas de forma controlada.
- Validação de schema entre abas: ao mesclar abas em uma única tabela, os schemas são comparados. Se uma aba tiver estrutura diferente, você controla o comportamento: pular a aba (com aviso) ou falhar a transformação.
- Sincronização contínua: assim como em outros formatos do Shortcut Transformation, novos arquivos e arquivos modificados são detectados automaticamente. Quando um arquivo muda na pasta de origem, a tabela Delta é atualizada sem reexecuções manuais.
- Sanitização de nomes de abas: nomes como "Sales Data (Q1)" são automaticamente sanitizados para nomes de tabela válidos (Sales_Data_Q1).
- Gerenciamento de erros: detalhes de sucesso, falha e aviso são capturados por arquivo e por aba, com códigos de erro e mensagens explicativas na visualização de monitoramento.
- Pulo inteligente e código de moeda: linhas de título, linhas de metadados, colunas vazias antes da tabela e linhas vazias são puladas inteligentemente, e o código de moeda é armazenado como uma coluna separada.
Figura: Ingestão de dados Excel do SharePoint para o Fabric Lakehouse.
Primeiros passos
- Selecione ou crie um novo Fabric Lakehouse.
- Selecione New Table Shortcut ou New Schema Shortcut e escolha sua fonte (Azure Data Lake, Azure Blob Storage, Amazon S3, GCP, SharePoint, OneDrive, etc.).
- Escolha a pasta contendo arquivos Excel, verifique as transformações no assistente e salve seu Shortcut.
- Acompanhe as atualizações no hub Manage Shortcuts.
- Visualize logs na visualização de monitoramento para total transparência — incluindo detalhes de processamento por aba.
Impacto real em diferentes papéis
Analista financeiro: uma equipe global de finanças consolida relatórios mensais de P&L de 12 escritórios regionais. Cada escritório envia uma pasta de trabalho Excel com abas nomeadas por mês. Com Shortcut Transformations, o analista configura um único shortcut com sheet_names = "January, February, March" e modo Combined Table. Todos os 12 arquivos × 3 abas = 36 conjuntos de dados fluem para uma tabela Delta com colunas de filepath e sheetname para rastrear cada linha até sua origem. Dashboards se mantêm atualizados automaticamente conforme novos arquivos mensais chegam.
Operações de RH: um time de RH gerencia dados de onboarding de funcionários por meio de múltiplos templates Excel. Cada template tem uma aba "New Hires" e várias abas de referência ("Departments", "Locations", "Instructions"). Usando filtro por nome de aba (sheet_names = "New Hires"), apenas os dados relevantes são ingeridos, e abas de referência e instruções são puladas automaticamente. Quando ocorrem incompatibilidades de schema (ex: um escritório regional adiciona uma coluna extra), skip_on_error garante que o processamento continue com avisos registrados.
Engenheiro de dados de supply chain: uma empresa de manufatura recebe snapshots diários de inventário em arquivos Excel multi-abas de 50 armazéns. Cada arquivo tem abas para "Raw Materials", "Finished Goods" e "WIP". Usando o modo Table per Sheet, três tabelas Delta separadas são criadas automaticamente. Abas de mesmo nome de diferentes arquivos são consolidadas: Raw_Materials contém dados de todos os 50 armazéns, filtrável pela coluna filepath.
Analista de varejo: uma rede varejista recebe dados semanais de vendas de franqueados em formato Excel. Diferentes franqueados usam nomes de abas distintos ("Weekly Sales", "SalesData", "Sales_Report"). Usando padrões curinga (sheet_names = "Sales"), todas as variações são capturadas automaticamente sem necessidade de manter uma lista explícita.
Recursos
Com o Excel to Delta no Shortcut Transformations, as equipes podem migrar de ingestão manual para pipelines de dados escaláveis e de baixo código — trazendo fluxos de trabalho familiares do Excel para um lakehouse moderno sem complexidade adicional.
Para saber mais e conhecer limitações atuais, consulte a documentação de Shortcut Transformations. Forneça feedback e sugira ideias via Fabric Ideas.
Posts relacionados do blog:
- From Files to Delta Tables — Parquet & JSON data ingestion simplified with Shortcut Transformations
- Nested folders support in Shortcut Transformations
- Accelerating insights from unstructured text with AI Powered Shortcut Transformations
- Shortcut Transformations – Generally Available
Perguntas Frequentes
-
Como o Shortcut Transformations lida com schemas inconsistentes entre abas?
O recurso infere automaticamente nomes de colunas e tipos de dados de cada aba. Ao combinar abas em uma única tabela Delta, os schemas são comparados entre si. Se uma aba tiver estrutura diferente, o administrador pode configurar o comportamento: ignorar a aba com um aviso ou interromper a transformação. -
Qual a diferença entre Combined Table e Table per Sheet?
No modo Combined Table, todas as abas de todos os arquivos são mescladas em uma única tabela Delta, com colunas de metadados (filepath, sheetname) para rastreabilidade. No modo Table per Sheet, cada aba vira sua própria tabela Delta, e abas com mesmo nome de arquivos diferentes são automaticamente consolidadas. -
Preciso escrever código para ingerir Excel no Lakehouse com esse recurso?
Não. O Shortcut Transformations oferece uma experiência de zero código: basta selecionar a fonte (ADLS, S3, SharePoint, etc.), apontar a pasta com arquivos .xlsx/.xls, ajustar opções no assistente e salvar. Toda a lógica de descoberta, parsing e transformação é gerenciada pelo Fabric. -
O recurso suporta arquivos .xls (formato antigo) além de .xlsx?
Sim. A documentação afirma suporte a ambos os formatos: .xlsx e .xls. Isso é importante para empresas brasileiras que ainda possuem legados em formato binário do Excel. -
Como funciona a sincronização contínua de arquivos Excel modificados?
Similar a outros formatos suportados por Shortcut Transformations, novos arquivos e alterações em arquivos existentes na pasta de origem são detectados automaticamente. A tabela Delta é atualizada sem necessidade de reexecução manual, garantindo que dashboards e análises estejam sempre com dados frescos.
Artigo originalmente publicado em Azure Updates - Latest from Azure Charts.