13 de maio de 20264 min de leitura

Como transformar o processamento de vídeo em escala com IA: o caso Glance

Himanshu Aggarwal

Google Cloud

Banner - Como transformar o processamento de vídeo em escala com IA: o caso Glance

Este artigo analisa como a plataforma Glance automatizou a transformação de vídeos longos em clipes verticais de alta conversão usando uma pipeline de IA. Combinando Google Cloud Speech-to-Text, Gemini e Vision API, a arquitetura resolve desafios complexos como detecção de locutor ativo, segmentação inteligente e legendagem dinâmica. A conclusão é que automações baseadas em, computer vision e generative AI são viáveis e necessárias para empresas que precisam escalar produção de conteúdo sem sacrificar qualidade operacional.

Diariamente, horas de conteúdo em formatos horizontais (16:9) tornam-se obsoletas frente ao consumo massivo de feeds verticais em dispositivos móveis. Para a Glance, esse desafio escalou para a necessidade de processar mais de 10 mil vídeos por dia. A solução não exigia apenas recortes simples, mas inteligência para manter a relevância visual, detectando oradores e mantendo a coesão das conversas.

Como a infraestrutura de vídeo suporta a 'era do lock screen'?

O objetivo foi construir um pipeline end-to-end capaz de processar material bruto e gerar entregáveis prontos para publicação, mantendo critérios técnicos rigorosos:

  1. Key Moment Identification: Seleção algorítmica de segmentos engajadores.
  2. Active Speaker Detection: Foco dinâmico no orador ativo, descartando estática.
  3. Split Screen Detection: Identificação e alinhamento de layouts de entrevista.
  4. Intelligent Reframing: Conversão de wide-screen para vertical sem perda de contexto.
  5. Dynamic Captioning: Legendagem word-level com foco em engajamento mobile.
  6. Automated Branding: Aplicação programática de ativos visuais.

O motor dessa transformação utiliza Google Cloud Speech-to-Text v2, Gemini e Google Cloud Vision API, integrados à manipulação via Samurai, OpenCV e MoviePy.

Qual a arquitetura por trás da eficiência operacional?

A pipeline é segmentada em três módulos core:

High-level architecture

Como funciona o módulo de clipping?

O foco aqui é precisão. A extração de áudio, convertida por Speech-to-Text, é analisada pelo Gemini 2.5 Flash para determinar os pontos de corte ideais. O resultado é um conjunto de clipes com transcripts alinhados por tempo.

Video Clipping Workflow

Como otimizar a reframe de conteúdo sem perda de inteligência?

O trunfo aqui é o Intelligent Reframing Engine, que evita o uso de cortes centrais genéricos, aplicando análise frame-a-frame via Vision API.

Intelligent reframing engine

Detecção de Locutor Ativo

O sistema valida a 'vivacidade' do orador rastreando movimentos labiais e inclinações de cabeça, garantindo que o foco da câmera virtual nunca recaia sobre uma imagem estática ou um colaborador secundário que não esteja falando.

Active speaker detection

Scenario com um orador e um fundo estático

Como lidar com o desafio do Split-screen?

Para entrevistas divididas, o sistema utiliza duas abordagens: o tracking de objetos via Samurai para identificar linhas de separação e a análise de contraste de fundo via Vision API. O resultado é a reformatatação para um layout vertical stack.

Vídeo reformatting

Background discontinuity analysis

Finalização e Branding

Por fim, a camada de branding utiliza máscaras (masks) com canal alfa e inserção dinâmica de logos, além de captions com destaque em texto para garantir que o consumo sem áudio não prejudique o engajamento.

Dynamic caption highlighting

Mask and logo placement

Perguntas Frequentes

  • Como a IA consegue distinguir um locutor real de uma imagem estática ao fundo?
    O sistema utiliza a detecção de pontos faciais para monitorar movimentos labiais e mudanças na pose da cabeça. Se não houver animação consistente baseada em parâmetros de 'liveness', o elemento é classificado como estático, evitando erros no crop inteligente.

  • Quais ferramentas compõem a stack técnica citada para manipulação de vídeo?
    A solução integra Google Cloud Speech-to-Text v2, Gemini e Vision API para inteligência, enquanto a manipulação de vídeo propriamente dita utiliza bibliotecas open-source como Samurai para tracking de objetos, OpenCV para processamento de imagem e MoviePy para a montagem final.

  • Por que o uso de splitting de tela é importante em contextos de entrevistas?
    O split-screen preserva o contexto do diálogo em layouts verticais (9:16). Ao identificar a divisão da tela, o sistema empilha os interlocutores verticalmente, mantendo a narrativa compreensível para o público mobile.


Artigo originalmente publicado por Himanshu AggarwalMachine Learning Engineer, Glance em Cloud Blog.

Gostou? Compartilhe:
Precisa de ajuda?Fale com nossos especialistas 👋
Avatar Walcew - Headset