Arquiteturas event-driven tornaram-se pilares fundamentais para empresas que buscam agilidade. Seja no rastreamento de comportamento de usuários, monitoramento de dispositivos IoT ou captura de sinais de negócio, a capacidade de mover e agir sobre os dados instantaneamente é um diferencial competitivo.
O OCI Streaming com Apache Kafka oferece uma base cloud native robusta para recepcionar eventos de alta velocidade em escala. No entanto, o desafio para muitos times de engenharia no Brasil não é apenas o armazenamento, mas como processar esses dados in motion sem elevar o overhead operacional. É aqui que entra o DeltaStream.
Transformando dados “in-motion”
Streams de dados brutos são valiosos, mas raramente estão no formato ideal para consumo por sistemas de analytics ou microservices. Tradicionalmente, isso exige a manutenção de clusters complexos, conectores customizados e código de transformação que demanda alta especialização (como Java ou Scala para Flink/Spark).
Com a combinação de DeltaStream e OCI Streaming, a abordagem muda para uma ótica de eficiência operacional:
- Conectividade ágil: Conexão rápida a fontes de eventos existentes.
- Exploração Low-Code: Inspeção de topics e schemas via interface, sem ferramentas extras.
- SQL Contínuo: Uso de SQL padrão para expressar filtros, joins e agregações em tempo real.
- Serverless Pipeline: Publicação de resultados em novos Kafka topics sem gerenciar clusters Flink próprios.
Essa estratégia reduz a carga de sustentação (Ops) e acelera o time-to-market de pipelines de dados críticos.
Conectando ao OCI Streaming com Apache Kafka
Se você já possui eventos fluindo para o OCI Streaming, a integração é simplificada pela compatibilidade de API do serviço da Oracle com o ecossistema Kafka. Em um cenário prático, como um topic de pageviews, a conexão ocorre de forma transparente.
Para configurar o DeltaStream como um data store, basta apontar para o bootstrap server do OCI (geralmente na porta 10000) e fornecer as credenciais de IAM. O suporte a TLS e schema registries garante que a segurança e a governança dos dados sejam mantidas de ponta a ponta.
Exploração e query com SQL
O workspace do DeltaStream trata o streaming de dados como se fosse uma tabela relacional. Para times de banco de dados e analistas, isso elimina a curva de aprendizado de frameworks de streaming complexos.
Ao definir um schema e vinculá-lo ao topic, como no exemplo abaixo:
CREATE STREAM pageviews_stream (
event_id VARCHAR,
userid VARCHAR,
viewtime TIMESTAMP_LTZ(3),
event_type STRING
) WITH (
'store' = 'oci_kafka',
'topic'='pageviews',
'value.format'='JSON'
);
O DeltaStream inicia um ambiente de compute gerenciado que lê o topic continuamente. Não se trata de um snapshot estático, mas de um processamento contínuo onde novos eventos são processados assim que chegam.
Publicação de resultados transformados
A etapa final é devolver o dado enriquecido ou filtrado para o ecossistema Kafka, permitindo que outros microservices o consumam. Ao executar um comando CREATE STREAM ... AS SELECT, o DeltaStream provisiona um job Flink gerenciado nos bastidores:
create stream pageviews_purchases_stream
with (
store = 'oci_kafka',
topic = 'pageviews_purchases'
) as
select *
from pageviews
where event_type = 'purchase';
A partir daí, métricas de throughput e latency podem ser monitoradas diretamente no dashboard ou via API de observabilidade, garantindo o controle sobre o SLA do pipeline.
Por que isso é estratégico para o cenário brasileiro?
Para empresas brasileiras, essa arquitetura endereça dois pontos críticos: custo e escassez de talentos especializados em Big Data. Ao utilizar o OCI Streaming como backbone e o DeltaStream como camada de processamento via SQL, as organizações conseguem:
- Reduzir o lock-in operacional: Menos infraestrutura governada internamente significa foco total no produto.
- Híbrido e Multi-cloud: O DeltaStream suporta conectores para bancos relacionais, cloud storage e outras message queues, facilitando migrações graduais de legados para arquiteturas modernas no OCI.
- Eficiência de Custos: Menos tempo gasto configurando clusters e conectores reflete diretamente em um TCO (Total Cost of Ownership) mais saudável para o departamento de TI.
Artigo originalmente publicado por Abhishek Bhaumik em cloud-infrastructure.