7 de abril de 20266 min de leitura

Otimizando a Geração de Áudio com Lyria 3: Uma Análise Estratégica

Hussain Chinoy

Google Cloud

Banner - Otimizando a Geração de Áudio com Lyria 3: Uma Análise Estratégica

Lyria 3 representa a investida do Google em modelos de geração musical com foco em controle granular de vocais, instrumentação e arranjos. Para empresas que buscam automatizar a criação de ativos de mídia em escala, a transição de protótipos experimentais para pipelines de produção exige rigor técnico. A equipe de engenharia do Google dedicou ciclos de teste significativos para mapear casos de uso em diversos gêneros musicais e cenários de aplicação.

Este guia sintetiza os pontos críticos para extrair performance dos modelos, estruturando o conhecimento necessário para times de engenharia e produto que pretendem implementar soluções baseadas em GenAI na sua stack corporativa.

O que será abordado:

  1. Visão geral do modelo.
  2. Detalhamento das especificações técnicas.
  3. Melhores práticas para um prompting eficaz.
  4. Framework core de estruturação de prompts.
  5. Otimização de vocais e performance lírica.
  6. Workflows criativos avançados.
  7. Integrações com o ecossistema de media models no GCP.

Visão geral do modelo

O Lyria 3 e o Lyria 3 Pro foram concebidos para sustentar workflows criativos industriais. O valor desses modelos reside em três pilares operacionais:

  1. Controle estrutural: Capacidade de orquestrar a composição via prompts (intros, versos, refrões e pontes).
  2. Qualidade de áudio: Entrega de áudio estéreo de alta fidelidade.
  3. Precisão: Manipulação de mudanças estruturais via timestamps, condicionamento de tempo e inputs multimodais.

Especificações técnicas: Lyria 3 e Lyria 3 Pro

A integração via API no Vertex AI expõe as capacidades de manipulação dos modelos:

  • Track length: O Lyria 3 é otimizado para assets de 30 segundos; o Lyria 3 Pro expande essa capacidade para até três minutos.
  • Vocal support: Melhorias significativas em realismo, suporte a polifonia em oito idiomas (incluindo Português).
  • Controles e condicionamento: Otimização para lyrics temporizados e condicionamento de tempo via linguagem natural.
  • Multimodal inputs: Integração nativa com texto, PDF ou até 10 referências visuais.
  • Trust and safety: Inclusão nativa de marca d'água via SynthID e suporte ao padrão C2PA para metadados assinados.

Para especificações detalhadas, consulte o Lyria 3 models card.

Melhores práticas para prompting eficiente

Para garantir que o output de áudio esteja alinhado com os requisitos de design:

  1. Seja descritivo e específico: Utilize adjetivos que delimitem a fronteira do resultado esperado.
  2. Contextualize gêneros e eras: A ancoragem estilística (ex: Rock dos anos 90) reduz a entropia do modelo.
  3. Defina a instrumentação: Evite defaults genéricos explicitando os instrumentos core do arranjo.
  4. Iteração sistemática: Utilize o refinamento de keywords para ajustar o output em cada nova execução de pipeline.

Framework core de prompting

A eficácia no controle do modelo é alcançada seguindo esta estrutura:

[Gênero/Estilo] + [Mood] + [Instrumentação] + [Tempo e Ritmo] + [Estilo Vocal & Idioma] + [Letra]

  • Gênero e estilo: Ex: "cinematic orchestral fantasy".
  • Mood: Descrição da intenção emocional (ex: "tense and suspenseful").
  • Instrumentação: Especificação clara (ex: "guitar", "piano").
  • Tempo e ritmo: Velocidade, pace e groove.
  • Instrumental vs. vocal: Definição binária.
  • Estilo vocal & idioma: Gênero, tom (raspy/smooth) e língua alvo.
  • Letras: Tema para geração generativa ou letras específicas encapsuladas entre aspas.

Exemplo de prompt: “A romantic fusion of classic Bossa Nova and modern R&B. The mood is intimate, warm, and deeply affectionate. Features a gentle acoustic nylon-string guitar, warm electric piano chords, and a crisp, laid-back modern hip-hop drum beat. A slow, swaying tempo. Featuring a vocal duet: a smooth male vocalist singing in English, and a soft, breathy female vocalist singing in French. The lyrics are a beautiful love song about an undeniable, cross-cultural connection”

Vídeo Lyria 3

Para outputs exclusivamente instrumentais, adicione o parâmetro "instrumental":

Prompt example: “A warm, modern lofi hip-hop beat for studying, featuring a muffled drum break and dusty jazz piano samples. Instrumental.”

Vídeo Lyria 3 Pro Lofi

Mastering vocals e letras

O controle sobre a performance vocal é detalhado via comandos específicos:

  • Sintaxe para lyrics: Pré-fixar com "Lyrics:" antes dos versos para controle direto.
  • Backing vocals: Delimitação de momentos para backing vocals.
  • Geração: Possibilidade de fornecer apenas o tema ou a letra completa.

Exemplo: “A smooth, moody jazz ballad featuring piano and upright bass. The vocals should be a female singer with a breathy, soulful soprano range. The vocal pattern should start out confident but get calmer and quieter as the track progresses. Song lyrics about meeting the love of her life in New York.”

Vídeo Lyria 3 Pro Jazz

Controlling the voice

A precisão do vocal é definida por:

  • Demografia/Range: Male/female, barítono, soprano.
  • Texture (timbre): "gravelly," "soulful," ou "breathy."
  • Patterns: Velocidade e variação dinâmica.
  • Idioma: Múltiplas línguas suportadas (Inglês, Alemão, Espanhol, Francês, Hindi, Japonês, Coreano e Português).

Exemplo: “An upbeat, high-energy J-pop track with bright, sparkling synths, electric guitar, and a driving bassline. Featuring a clear, expressive male tenor vocal singing in Japanese. The vocal style should be fast-paced and melodic, with a sweet and highly polished texture.”

Vídeo Lyria 3 Pro J-pop

Workflows criativos avançados

Workflow 1: Timestamp prompting

Ideal para orquestração de mudanças de cena em conteúdo audiovisual.

Prompt example:

[00:00] Begin immediately with a massive gospel choir singing a powerful, uplifting harmony about being kind to yourself.

[00:15] A heavy, modern hip-hop drum beat and a deep 808 bassline drop in, matching the energy of the choir.

(Sequenciamento contínuo até [03:00]).

Vídeo Lyria 3 Pro Timestamp

Workflow 2: Multimodal generation

Utilize o upload de assets (imagens ou PDFs) para condicionar o baseline emocional.

Prompt example: “A deeply emotional, modern Bollywood song in English. The lyrics and mood should match the story in the images attached.”

Vídeo Lyria 3 Pro Image to music

Go further

A integração do Lyria com o ecossistema Vertex AI é o que viabiliza a produção escalável:

  • Lyria + Veo: Scoring de cenas com transições automatizadas.
  • Lyria + Imagem/Storyboard: Criação sonora a partir de referências visuais.
  • Lyria + Gemini: Uso de LLMs para a engenharia de prompts ideais baseada em briefings corporativos.
  • Lyria + Agents: Implementação via GenMedia MCP tools para automação de tarefas específicas (domain-specific sound design).

Para iniciar, acesse a documentação de API, o repositório de SDK para Python ou explore o Vertex AI Media Studio.


Artigo originalmente publicado por Hussain ChinoyTechnical Solutions Manager, Google Cloud em Cloud Blog.

Gostou? Compartilhe:
Precisa de ajuda?Fale com nossos especialistas 👋
Avatar Walcew - Headset