TL;DR: Este artigo analisa a vitória da Flipkart no concurso de estudo de caso da CNCF, destacando sua plataforma de chaos engineering construída com Kubernetes e LitmusChaos. A equipe de reliability engineering implementou arquitetura multi-tenant, DaemonSet para injeção concorrente de falhas e suporte a workloads legados em VM. Cerca de 90% dos experimentos são executados em staging, validando a resiliência antes de picos de tráfego. A conclusão principal: a adoção de chaos engineering como processo padrão, com contribuições upstream, é um modelo replicável para empresas que buscam estabilidade em escala.
Como a Flipkart transformou a resiliência em um processo sistemático?
Key Highlights
- Uma das maiores plataformas de e-commerce da Índia, a Flipkart venceu o CNCF End User Case Study Contest no KubeCon + CloudNativeCon India 2026.
- O prêmio reconhece o trabalho da equipe de reliability engineering (CRE) na construção de uma plataforma de chaos engineering multi-tenant customizada, baseada em Kubernetes e no projeto incubado da CNCF, LitmusChaos.
- A solução endurece o ecossistema de microserviços executando aproximadamente 90% dos experimentos de caos em ambientes de staging antes de grandes eventos de vendas sazonais.
- A equipe contribuiu com cinco correções e melhorias para o projeto LitmusChaos upstream, beneficiando toda a comunidade cloud native.
A Flipkart opera um ecossistema digital massivo, atendendo centenas de milhões de consumidores. Para sair do modo reativo a falhas, a empresa decidiu tratar a resiliência como um procedimento padrão. Após avaliar diversas ferramentas do mercado, escolheu o LitmusChaos por sua orquestração nativa Kubernetes, interface intuitiva, extensibilidade robusta e probes automatizados de resiliência. A equipe implementou um modelo de assinatura único, implantado em um namespace central, que equilibra eficiência em todo o cluster com isolamento absoluto de tenants.
Para empresas brasileiras que operam grandes malhas de microserviços — especialmente durante eventos como Black Friday ou promoções sazonais — o case da Flipkart oferece um roteiro prático. Em vez de depender de testes esporádicos, a abordagem de chaos engineering contínuo em staging permite validar a resiliência antes que o tráfego real chegue. Isso reduz significativamente o risco de falhas em cascata e over-provisioning.
Quais foram os desafios técnicos superados?
A equipe enfrentou gargalos de scheduling de helper-pods durante operações críticas. A solução foi substituir pods sob demanda por um DaemonSet persistente em nível de nó, que executa injeções concorrentes via sessões shell paralelas. O time de banco de dados utilizou o novo Script Runner fault para verificar sistematicamente o comportamento de leader-election em ambientes de alta disponibilidade. Além disso, criaram quatro extensões customizadas: uma arquitetura híbrida multi-tenant, o modelo DaemonSet de alta disponibilidade, o Script Runner para seleção dinâmica de alvos e uma extensão interna para suporte a workloads legados em máquinas virtuais.
A iniciativa estabeleceu uma mudança cultural mensurável: os times operacionais migraram do pânico reativo para procedimentos padrão, utilizando cenários de falha ensaiados como base direta para runbooks de incidentes atualizados. Ao executar cerca de 90% dos experimentos de caos diretamente em clusters Kubernetes de staging, a Flipkart eliminou gargalos de over-provisioning e validou seus frameworks de observability antes de picos massivos de tráfego — como as vendas festivas indianas.
Por que as contribuições upstream são importantes?
A Flipkart se comprometeu com a sustentabilidade do open source ao retornar cinco contribuições principais ao projeto LitmusChaos upstream, resolvendo desafios de longa data da comunidade: correções no índice de banco de dados para unicidade de probes em projetos, reparos na validação de nomes duplicados durante edição de tags e correções de configuração de workflows em registries de imagem customizados. Para o futuro, a empresa planeja integrar testes de caos automatizados diretamente em seus pipelines de CI/CD como uma fase obrigatória do ciclo de desenvolvimento de software, além de abrir o modelo de injeção DaemonSet para a comunidade cloud native.
O que isso significa para empresas brasileiras?
Para times de engenharia no Brasil que lidam com arquiteturas de microsserviços em cloud pública (AWS, Azure, GCP) ou on-premises, o case da Flipkart reforça que chaos engineering não é um luxo, mas uma necessidade para quem opera em escala. A escolha de ferramentas neutras como Kubernetes e LitmusChaos evita vendor lock-in e permite customizações profundas. Além disso, a prática de contribuir de volta para o upstream não só fortalece a comunidade, mas também garante que as correções sejam mantidas a longo prazo. Para gestores de TI, a lição principal é que investir em resiliência proativa — com experimentos em staging — reduz custos operacionais e riscos de interrupção em momentos críticos de negócio.
Perguntas Frequentes
-
Por que a Flipkart escolheu o LitmusChaos em vez de outras ferramentas de chaos engineering?
- A Flipkart avaliou diversas opções do mercado e optou pelo LitmusChaos devido à sua orquestração nativa Kubernetes, interface intuitiva, extensibilidade robusta e probes automatizados de resiliência, que atendiam aos requisitos de uma plataforma centralizada e multi-tenant.
-
Quais foram as principais contribuições da Flipkart para o projeto upstream LitmusChaos?
- Foram cinco contribuições principais: correções no índice de banco de dados para unicidade de probes, validação de nomes duplicados durante edição de tags, correções de configuração de workflows em registries de imagem customizados, além de quatro extensões customizadas (arquitetura multi-tenant, DaemonSet HA, Script Runner e suporte a VMs).
-
Como a plataforma lida com workloads legados em máquinas virtuais?
- A equipe criou uma extensão híbrida interna que permite executar experimentos de caos também em workloads de VM, integrando-os ao mesmo pipeline de chaos engineering baseado em Kubernetes, sem migração forçada para containers.
-
Qual foi o impacto operacional na Flipkart após a implementação do chaos engineering?
- A prática transformou a cultura dos times operacionais, que passaram de reação a incidentes para procedimentos padrão com cenários de falha ensaiados. Os runbooks de incidentes passaram a ser atualizados com base nos experimentos, e a equipe eliminou gargalos de over-provisioning em clusters.
Artigo originalmente publicado por kthornhill em Cloud Native Computing Foundation.