22 de janeiro de 20264 min de leitura

Transformação de Dados em Tempo Real no OCI Streaming com Apache Kafka e DeltaStream

Abhishek Bhaumik

Oracle Cloud

Arquiteturas event-driven tornaram-se pilares fundamentais para empresas que buscam agilidade. Seja no rastreamento de comportamento de usuários, monitoramento de dispositivos IoT ou captura de sinais de negócio, a capacidade de mover e agir sobre os dados instantaneamente é um diferencial competitivo.

O OCI Streaming com Apache Kafka oferece uma base cloud native robusta para recepcionar eventos de alta velocidade em escala. No entanto, o desafio para muitos times de engenharia no Brasil não é apenas o armazenamento, mas como processar esses dados in motion sem elevar o overhead operacional. É aqui que entra o DeltaStream.

Transformando dados “in-motion”

Streams de dados brutos são valiosos, mas raramente estão no formato ideal para consumo por sistemas de analytics ou microservices. Tradicionalmente, isso exige a manutenção de clusters complexos, conectores customizados e código de transformação que demanda alta especialização (como Java ou Scala para Flink/Spark).

Com a combinação de DeltaStream e OCI Streaming, a abordagem muda para uma ótica de eficiência operacional:

  • Conectividade ágil: Conexão rápida a fontes de eventos existentes.
  • Exploração Low-Code: Inspeção de topics e schemas via interface, sem ferramentas extras.
  • SQL Contínuo: Uso de SQL padrão para expressar filtros, joins e agregações em tempo real.
  • Serverless Pipeline: Publicação de resultados em novos Kafka topics sem gerenciar clusters Flink próprios.

Essa estratégia reduz a carga de sustentação (Ops) e acelera o time-to-market de pipelines de dados críticos.

Conectando ao OCI Streaming com Apache Kafka

Se você já possui eventos fluindo para o OCI Streaming, a integração é simplificada pela compatibilidade de API do serviço da Oracle com o ecossistema Kafka. Em um cenário prático, como um topic de pageviews, a conexão ocorre de forma transparente.

Para configurar o DeltaStream como um data store, basta apontar para o bootstrap server do OCI (geralmente na porta 10000) e fornecer as credenciais de IAM. O suporte a TLS e schema registries garante que a segurança e a governança dos dados sejam mantidas de ponta a ponta.

Exploração e query com SQL

O workspace do DeltaStream trata o streaming de dados como se fosse uma tabela relacional. Para times de banco de dados e analistas, isso elimina a curva de aprendizado de frameworks de streaming complexos.

Ao definir um schema e vinculá-lo ao topic, como no exemplo abaixo:

CREATE STREAM pageviews_stream (
  event_id VARCHAR,
  userid VARCHAR,    
  viewtime TIMESTAMP_LTZ(3),
  event_type STRING     
) WITH (
   'store' = 'oci_kafka',
   'topic'='pageviews',
   'value.format'='JSON'
);

O DeltaStream inicia um ambiente de compute gerenciado que lê o topic continuamente. Não se trata de um snapshot estático, mas de um processamento contínuo onde novos eventos são processados assim que chegam.

Publicação de resultados transformados

A etapa final é devolver o dado enriquecido ou filtrado para o ecossistema Kafka, permitindo que outros microservices o consumam. Ao executar um comando CREATE STREAM ... AS SELECT, o DeltaStream provisiona um job Flink gerenciado nos bastidores:

create stream pageviews_purchases_stream
with (
  store = 'oci_kafka',  
  topic = 'pageviews_purchases'
) as
select *
from pageviews
where event_type = 'purchase';

A partir daí, métricas de throughput e latency podem ser monitoradas diretamente no dashboard ou via API de observabilidade, garantindo o controle sobre o SLA do pipeline.

Por que isso é estratégico para o cenário brasileiro?

Para empresas brasileiras, essa arquitetura endereça dois pontos críticos: custo e escassez de talentos especializados em Big Data. Ao utilizar o OCI Streaming como backbone e o DeltaStream como camada de processamento via SQL, as organizações conseguem:

  1. Reduzir o lock-in operacional: Menos infraestrutura governada internamente significa foco total no produto.
  2. Híbrido e Multi-cloud: O DeltaStream suporta conectores para bancos relacionais, cloud storage e outras message queues, facilitando migrações graduais de legados para arquiteturas modernas no OCI.
  3. Eficiência de Custos: Menos tempo gasto configurando clusters e conectores reflete diretamente em um TCO (Total Cost of Ownership) mais saudável para o departamento de TI.

Artigo originalmente publicado por Abhishek Bhaumik em cloud-infrastructure.

Gostou? Compartilhe:
Precisa de ajuda?Fale com nossos especialistas 👋
Avatar Walcew - Headset