9 de março de 20264 min de leitura

Otimização de custos e escalabilidade global: O caso Sony PlayStation com Google Cloud Spanner

Justin Makeig

Google Cloud

Banner - Otimização de custos e escalabilidade global: O caso Sony PlayStation com Google Cloud Spanner

Cada vez que você inicia um jogo no seu PlayStation, há um sistema crítico rodando em segundo plano: o serviço de Entitlements. Ele valida o que você possui, abrangendo mais de 350 milhões de contas e sustentando uma operação multibilionária. Para a Sony Interactive Entertainment, a premissa é clara: o sistema precisa ser consistente, instantâneo e ter alta disponibilidade, garantindo acesso aos jogos sem abrir mão da segurança ou da precisão do inventário.

Recentemente, a Sony reestruturou esse serviço utilizando o Google Cloud Spanner. O resultado prático foi uma redução de 91% no consumo de storage e uma queda de quase 50% nos custos operacionais, tudo isso realizado através de uma migração zero-downtime em um ambiente crítico de produção.

O desafio do legado: O preço da denormalização

A arquitetura original do Entitlements apoiava-se em um modelo híbrido com Apache Cassandra e Oracle. À medida que a base de usuários e o catálogo cresciam, o sistema enfrentava gargalos severos. Para mitigar problemas de performance, a equipe precisou recorrer à denormalização, resultando em mais de 530 TB de dados, grande parte composta por cópias redundantes.

O trade-off era evidente na experiência do usuário: os clientes mais leais — aqueles com as maiores bibliotecas de jogos — enfrentavam a maior lentidão. Atualizações simples de catálogo levavam dias para propagar. A liderança de engenharia buscava uma solução que permitisse escalabilidade horizontal sem sacrificar a consistência dos dados, essencial para evitar inconsistências em transações de compra e acesso a conteúdo.

Unificando a fonte da verdade

Com o Spanner, um distributed SQL database, a Sony pôde normalizar seu modelo de dados em escala global. A transição foi radical: eliminar centenas de cópias redundantes em favor de uma única "fonte da verdade".

Ao separar dados de entitlement (transacionais) de metadados de catálogo (estáticos) e co-localizar as informações de cada usuário com seus registros, a equipe reduziu o storage por player de 3 MB para modestos 0,12 MB. Isso eliminou a necessidade de índices de busca pesados e caros, reduzindo drasticamente a complexidade da camada de aplicação.

Consistência global e TrueTime

Um diferencial técnico decisivo foi o uso do TrueTime, o relógio sincronizado globalmente do Google. Ele permite que transações sejam validadas em qualquer região com consistência externa real. Na prática, se um usuário realiza uma compra em Tóquio, o acesso é refletido instantaneamente em Toronto, eliminando a latência de sincronização e a necessidade de lógica complexa de eventual consistency no código legado.

A estratégia de geo-partitioning do Spanner permitiu que a Sony mantivesse a proximidade necessária para baixa latência, enquanto a arquitetura permite escalar de um único node regional para uma implementação multi-region de 500 nodes sem necessidade de re-arquitetura ou downtime por deployment.

Resultados na prática

A migração não foi apenas um sucesso técnico, mas também financeiro e operacional:

Tabela de Resultados da Migração

Como vemos na tabela, o throughput operacional e a simplicidade de manutenção foram os maiores ganhos. Para a equipe de engenharia, sair do modelo de manutenção de infraestrutura legada permitiu o foco em novas funcionalidades, enquanto para a Sony, o sistema tornou-se mais ágil e significativamente mais barato.

Lições para o mercado brasileiro

O caso da Sony ilustra um ponto comum para empresas brasileiras em crescimento: o medo de mudar bases de dados legadas muitas vezes impede a adoção de tecnologias capazes de eliminar custos ocultos de storage e computação. Se o seu negócio gerencia inventários, ledgers ou qualquer dado sensível em escala, a decisão entre consistência e escalabilidade não precisa ser forçada.

O Spanner oferece um caminho onde a resiliência operacional é o padrão, e a eficiência de custos (FinOps) é uma consequência da otimização de dados.


Artigo originalmente publicado por Justin MakeigSenior Product Manager, Google em Cloud Blog.

Gostou? Compartilhe:
Precisa de ajuda?Fale com nossos especialistas 👋
Avatar Walcew - Headset