A barreira entre dados em bancos de dados operacionais e analytical data lakehouses está desaparecendo rapidamente. À medida que as empresas adotam arquiteturas zero ETL lakehouse, o desafio deixa de ser apenas o armazenamento em formatos abertos, como o Apache Iceberg, e passa a ser a entrega desses dados com a performance de baixa latência que aplicações modernas e agentes de AI exigem.
Seja para provedores de cibersegurança que necessitam de detecção de ameaças em tempo real ou gigantes de telecomunicações que buscam reimaginar fluxos de dados para melhorar a experiência do cliente, as organizações precisam servir insights pré-computados e modelos de AI em escala. Para endereçar essa demanda, o Google anunciou o preview do Spanner columnar engine, que permite servir dados do seu lakehouse Iceberg com a escalabilidade e a baixíssima latência do Google Spanner.
Unindo OLTP e Analytics: O Spanner Columnar Engine
Historicamente, gestores de TI no Brasil e no mundo precisavam escolher entre as capacidades transacionais de alta performance de um banco OLTP ou o poder analítico de um columnar warehouse. O motor colunar do Spanner encerra esse trade-off ao unir esses dois mundos em um único sistema horizontalmente escalável.
O columnar engine utiliza um mecanismo de armazenamento especializado projetado para acelerar queries analíticas, aumentando a velocidade de scans em até 200 vezes sobre dados operacionais vivos. Ao armazenar dados em formato colunar paralelamente ao armazenamento tradicional baseado em linhas, o Spanner pode executar consultas complexas automaticamente usando vectorized execution — processando lotes de dados de uma só vez, em vez de linha por linha.
O ponto crucial para a eficiência operacional: esse ganho de performance pode ser isolado de cargas de trabalho transacionais críticas. Isso garante que as aplicações voltadas ao cliente final permaneçam responsivas enquanto você extrai insights em tempo real do seu datastore operacional.
Novos Recursos em Destaque
Desde o anúncio inicial, novas capacidades foram adicionadas para acelerar a performance e a usabilidade:
- Vectorized execution: Suporte a scans colunares e agregações mais rápidas, processando dados de forma mais eficiente no nível da CPU.
- Automatic query handling: O Spanner redireciona automaticamente queries analíticas de grande varredura para a representação colunar. Isso permite o processamento híbrido real (HTAP) sem impactar o throughput transacional.
- Conversão de dados colunares on-demand: Além da conversão automática, uma nova API de major compaction acelera a transformação de dados existentes para o formato colunar.
Por que dados Iceberg precisam de uma plataforma de serving de baixa latência?
O Apache Iceberg tornou-se o padrão para arquiteturas open lakehouse, oferecendo robustez para gerenciar grandes conjuntos de dados em formatos abertos. No entanto, embora os lakehouses sejam excelentes para análise de massa, eles geralmente não são projetados para point lookups de sub-segundo ou alta concorrência que aplicações em tempo real exigem.
Aqui entra a proposta de valor estratégica do Spanner. Ao mover dados processados e curados do seu lakehouse para o Spanner — um processo conhecido como reverse ETL — você transforma dados analíticos "frios" em dados operacionais "quentes". O Spanner fornece a consistência global e o SLA de alta disponibilidade que as aplicações exigem, tornando seus dados Iceberg acessíveis via APIs de baixa latência para tomada de decisão em tempo real.
Benchmarking: Spanner Columnar Engine na Prática
Para demonstrar essas capacidades, foram utilizados benchmarks de mercado para web analytics e dashboards em tempo real — cenários onde a latência de entrega é crítica.
Os resultados com um único nó de Spanner demonstram o poder do motor colunar:
| Benchmark query | Spanner columnar engine speedup |
|---|---|
| Simple count of all records | 46.3× |
| Basic aggregation with filtering | 32.7× |
| High selectivity scan | 46.7× |
| Global aggregation | 58.6× |
Esses números mostram que o Spanner pode converter consultas complexas e pesadas de scan em resultados entregues em milissegundos, tornando-se a escolha ideal para alimentar experiências digitais modernas.
Reverse ETL Universal: Servindo dados de todos os Lakehouses
O Spanner foi desenhado para ser a camada de serving de todo o seu ecossistema. Não importa se o seu lakehouse reside no BigQuery, Snowflake, Databricks ou Oracle; o Spanner oferece um caminho integrado de alta velocidade.
- BigQuery: A integração permite federated queries em tabelas BigLake Iceberg e Spanner sem movimentação de dados. Para servir insights em escala, fluxos de reverse ETL empurram dados do BigQuery diretamente para o Spanner. Além disso, o Datastream garante a sincronização em tempo real das alterações operacionais de volta para o lakehouse.
- Databricks: Através do formato universal (UniForm), é possível gerar metadados Iceberg para tabelas Delta Lake automaticamente, facilitando a ingestão no Spanner via Dataflow.
- Snowflake: Exportação de tabelas Iceberg para o Google Cloud Storage utilizando o BigQuery BigLake como intermediário zero-copy para alimentar o Spanner.
- Oracle Autonomous AI Lakehouse: O Oracle Goldengate 26ai agora permite replicar dados do ecossistema Oracle para o Spanner, aproveitando sua escala e consistência.
Considerações Estratégicas para Empresas Brasileiras
A implementação do Spanner Columnar Engine representa uma evolução significativa para times de engenharia que buscam reduzir a complexidade operacional. Em vez de gerenciar múltiplas réplicas de leitura ou sistemas de cache complexos para acelerar dados analíticos, a consolidação no Spanner simplifica o pipeline de dados e reduz o Time-to-Market de novas funcionalidades de IA e análise em tempo real.
O Spanner columnar engine já está em preview e pode ser habilitado em tabelas existentes com uma alteração simples de DDL.
Artigo originalmente publicado por Girish Baliga Director of Engineering em Cloud Blog.