26 de fevereiro de 2026•5 min de leitura

Aceleração de Lakehouses Iceberg: Como o Spanner Columnar Engine Redefine a Entrega de Dados

Girish Baliga

Google Cloud

Banner - Aceleração de Lakehouses Iceberg: Como o Spanner Columnar Engine Redefine a Entrega de Dados

A barreira entre dados em bancos de dados operacionais e analytical data lakehouses está desaparecendo rapidamente. À medida que as empresas adotam arquiteturas zero ETL lakehouse, o desafio deixa de ser apenas o armazenamento em formatos abertos, como o Apache Iceberg, e passa a ser a entrega desses dados com a performance de baixa latência que aplicações modernas e agentes de AI exigem.

Seja para provedores de cibersegurança que necessitam de detecção de ameaças em tempo real ou gigantes de telecomunicações que buscam reimaginar fluxos de dados para melhorar a experiência do cliente, as organizações precisam servir insights pré-computados e modelos de AI em escala. Para endereçar essa demanda, o Google anunciou o preview do Spanner columnar engine, que permite servir dados do seu lakehouse Iceberg com a escalabilidade e a baixíssima latência do Google Spanner.

Unindo OLTP e Analytics: O Spanner Columnar Engine

Historicamente, gestores de TI no Brasil e no mundo precisavam escolher entre as capacidades transacionais de alta performance de um banco OLTP ou o poder analítico de um columnar warehouse. O motor colunar do Spanner encerra esse trade-off ao unir esses dois mundos em um único sistema horizontalmente escalável.

O columnar engine utiliza um mecanismo de armazenamento especializado projetado para acelerar queries analíticas, aumentando a velocidade de scans em até 200 vezes sobre dados operacionais vivos. Ao armazenar dados em formato colunar paralelamente ao armazenamento tradicional baseado em linhas, o Spanner pode executar consultas complexas automaticamente usando vectorized execution — processando lotes de dados de uma só vez, em vez de linha por linha.

O ponto crucial para a eficiência operacional: esse ganho de performance pode ser isolado de cargas de trabalho transacionais críticas. Isso garante que as aplicações voltadas ao cliente final permaneçam responsivas enquanto você extrai insights em tempo real do seu datastore operacional.

Novos Recursos em Destaque

Desde o anúncio inicial, novas capacidades foram adicionadas para acelerar a performance e a usabilidade:

Vectorized execution: Suporte a scans colunares e agregações mais rápidas, processando dados de forma mais eficiente no nível da CPU.
Automatic query handling: O Spanner redireciona automaticamente queries analíticas de grande varredura para a representação colunar. Isso permite o processamento híbrido real (HTAP) sem impactar o throughput transacional.
Conversão de dados colunares on-demand: Além da conversão automática, uma nova API de major compaction acelera a transformação de dados existentes para o formato colunar.

Sua infraestrutura está pronta para o processamento híbrido? Fale com os especialistas da Nuvem Online e otimize seus custos de Cloud e FinOps.

Por que dados Iceberg precisam de uma plataforma de serving de baixa latência?

O Apache Iceberg tornou-se o padrão para arquiteturas open lakehouse, oferecendo robustez para gerenciar grandes conjuntos de dados em formatos abertos. No entanto, embora os lakehouses sejam excelentes para análise de massa, eles geralmente não são projetados para point lookups de sub-segundo ou alta concorrência que aplicações em tempo real exigem.

Aqui entra a proposta de valor estratégica do Spanner. Ao mover dados processados e curados do seu lakehouse para o Spanner — um processo conhecido como reverse ETL — você transforma dados analíticos "frios" em dados operacionais "quentes". O Spanner fornece a consistência global e o SLA de alta disponibilidade que as aplicações exigem, tornando seus dados Iceberg acessíveis via APIs de baixa latência para tomada de decisão em tempo real.

Benchmarking: Spanner Columnar Engine na Prática

Para demonstrar essas capacidades, foram utilizados benchmarks de mercado para web analytics e dashboards em tempo real — cenários onde a latência de entrega é crítica.

Os resultados com um único nó de Spanner demonstram o poder do motor colunar:

Benchmark query	Spanner columnar engine speedup
Simple count of all records	46.3×
Basic aggregation with filtering	32.7×
High selectivity scan	46.7×
Global aggregation	58.6×

Esses números mostram que o Spanner pode converter consultas complexas e pesadas de scan em resultados entregues em milissegundos, tornando-se a escolha ideal para alimentar experiências digitais modernas.

Reverse ETL Universal: Servindo dados de todos os Lakehouses

O Spanner foi desenhado para ser a camada de serving de todo o seu ecossistema. Não importa se o seu lakehouse reside no BigQuery, Snowflake, Databricks ou Oracle; o Spanner oferece um caminho integrado de alta velocidade.

BigQuery: A integração permite federated queries em tabelas BigLake Iceberg e Spanner sem movimentação de dados. Para servir insights em escala, fluxos de reverse ETL empurram dados do BigQuery diretamente para o Spanner. Além disso, o Datastream garante a sincronização em tempo real das alterações operacionais de volta para o lakehouse.
Databricks: Através do formato universal (UniForm), é possível gerar metadados Iceberg para tabelas Delta Lake automaticamente, facilitando a ingestão no Spanner via Dataflow.
Snowflake: Exportação de tabelas Iceberg para o Google Cloud Storage utilizando o BigQuery BigLake como intermediário zero-copy para alimentar o Spanner.
Oracle Autonomous AI Lakehouse: O Oracle Goldengate 26ai agora permite replicar dados do ecossistema Oracle para o Spanner, aproveitando sua escala e consistência.

Considerações Estratégicas para Empresas Brasileiras

A implementação do Spanner Columnar Engine representa uma evolução significativa para times de engenharia que buscam reduzir a complexidade operacional. Em vez de gerenciar múltiplas réplicas de leitura ou sistemas de cache complexos para acelerar dados analíticos, a consolidação no Spanner simplifica o pipeline de dados e reduz o Time-to-Market de novas funcionalidades de IA e análise em tempo real.

O Spanner columnar engine já está em preview e pode ser habilitado em tabelas existentes com uma alteração simples de DDL.

Artigo originalmente publicado por Girish Baliga Director of Engineering em Cloud Blog.

Tags:

#GoogleCloud #Spanner #ApacheIceberg #Lakehouse #BigData #DevOps

Gostou? Compartilhe: