No cenário de rápida evolução da inteligência artificial, a criação de ativos visuais precisos e de alta qualidade tem sido, muitas vezes, um processo exaustivo de tentativa e erro. Para empresas que dependem de agilidade e consistência de marca, a necessidade é clara: um modelo que não apenas processe comandos, mas que realmente compreenda a intenção estratégica por trás deles.
Construídos sobre a família de modelos Gemini 3, os modelos Nano Banana aplicam capacidades de deep reasoning para processar integralmente o seu prompt antes de iniciar a geração. Testamos o Nano Banana 2 e o Nano Banana Pro em cenários exaustivos para entender seus limites operacionais e como eles podem ser integrados a pipelines de produção reais.
O que você analisará neste guia:
- Visão geral do modelo sob a ótica de negócios
- Especificações técnicas e capacidades de infraestrutura
- Boas práticas de prompting para resultados profissionais
- Frameworks de prompting aplicados
- Interoperabilidade com outros modelos criativos (Veo e Lyria)
Visão geral do modelo
Os modelos Nano Banana representam um salto em relação aos geradores de imagem tradicionais. Eles utilizam conhecimento de mundo real e raciocínio lógico para entregar resultados visuais ricos e tecnicamente precisos. Recentemente, a Google anunciou o Nano Banana 2, que se destaca em três pilares fundamentais para o mercado corporativo:
- Visual acurado com dados em tempo real: O Nano Banana 2 é alimentado por informações e imagens de web search em tempo real. Para empresas brasileiras, isso significa ferramentas educacionais mais atualizadas, marketing localizado com nuances regionais e apps de viagem com dados contextuais.
- Recursos de nível Pro com alta performance: O modelo desbloqueia funcionalidades premium — de renderização de texto e traduções a upscaling para 2K/4K. Isso permite que times de design criem storyboards, narrativas coesas e product mockups com fidelidade industrial.
- Controle de precisão: Suporte nativo para múltiplos aspect ratios (16:9, 9:16, 2:1, etc.), garantindo que o conteúdo se adapte a qualquer canal, de outdoors a anúncios em redes sociais, com texturas e iluminação superiores.
Breakdown técnico: Nano Banana 2 vs. Nano Banana Pro
Para arquitetos de soluções e gestores de TI, entender as restrições e capacidades via API e Vertex AI é crucial para o dimensionamento de projetos (consulte sempre a documentação oficial do Gemini 3 Pro Image e Gemini 3.1 Flash Image):
- Context windows: O Gemini 3.1 Flash Image (Nano Banana 2) suporta até 131.072 input tokens, enquanto o Gemini 3 Pro Image (Nano Banana Pro) suporta 65.536. Ambos mantêm um limite de 32.768 output tokens.
- Resoluções: Capacidade nativa para 1K, 2K e 4K. O modelo Flash introduz a resolução menor de 512px (0.5K) para maior rapidez em previews.
- Aspect ratios: Ampla gama de formatos, incluindo ultra-wide (21:9) e verticais extremos no modelo Flash (1:8, 8:1).
- Image inputs: É possível combinar até 14 imagens de referência em um único prompt (suporta PNG, JPEG, WebP, HEIC/HEIF).
- Document inputs: Suporte a arquivos de texto e PDF (máximo de 50 MB via API/Cloud Storage ou 7 MB via Console).
- Outputs: Geração híbrida de texto e imagem.
- Knowledge base: Base de conhecimento atualizada até janeiro de 2025.
- Live data: Integração nativa com web search.
- Trust & Safety: Inclusão automática de C2PA Content Credentials e marca d'água SynthID, essencial para governança e mitigação de riscos de SecOps.
Boas práticas para prompting eficaz
Para garantir que o resultado visual alinhe-se à necessidade do negócio, a técnica de construção do prompt deve seguir diretrizes analíticas:
- Seja específico: Forneça detalhes concretos sobre o sujeito, iluminação e composição.
- Framing positivo: Descreva o que você quer ver (ex: "rua vazia") em vez de usar negações (ex: "sem carros").
- Controle de câmera: Utilize terminologia cinematográfica e fotográfica, como "low angle" ou "aerial view".
- Iteração: Refine os resultados de forma conversacional, tratando as gerações subsequentes como ajustes de pipeline.
O ponto chave é iniciar o prompt com um verbo de ação forte que defina a operação primária desejada.
Cinco frameworks de prompting
1. Geração de Imagem
A estrutura do prompt varia conforme o uso de referências visuais ou apenas texto.
Text-to-image (sem referências)
Não use apenas palavras-chave; construa uma narrativa de cena.
- Fórmula: [Sujeito] + [Ação] + [Localização/Contexto] + [Composição] + [Estilo]
- Exemplo: [Sujeito] Uma modelo de moda vestindo um vestido marrom sob medida e botas elegantes. [Ação] Posando com uma postura estatuária e confiante. [Localização/Contexto] Fundo de estúdio vermelho cereja profundo. [Composição] Medium-full shot, centralizado. [Style] Editorial de revista de moda, filme analógico de médio formato, grão pronunciado, alta saturação, iluminação cinematográfica.

Geração Multimodal (com referências)
O Gemini permite combinar referências para manter a consistência de marca ou produtos.
- Fórmula: [Imagens de referência] + [Instrução de relacionamento] + [Novo cenário]
- Exemplo: Usando o esboço anexado como estrutura e a amostra de tecido como textura [Referências], transforme isso em um render 3D de alta fidelidade de uma poltrona [Relacionamento]. Posicione-a em uma sala de estar minimalista inundada de luz solar [Novo Cenário].

2. Edição de Imagem
O foco aqui é o que muda e o que permanece constante.
- Semantic Masking (Inpainting): Define-se uma máscara via texto para editar partes específicas.
- Exemplo: "Remova o homem da foto", garantindo que o fundo seja reconstruído coerentemente.

Composição e Style Transfer
- Style Transfer: Carregue uma foto e peça para recriar o conteúdo em outro estilo (ex: uma rua moderna no estilo de Van Gogh).


3. Informações em tempo real (Web Search)
Em vez de cenários fictícios, você instrui o modelo a buscar dados reais e visualizá-los.
- Fórmula: [Fonte/Busca] + [Tarefa Analítica] + [Tradução Visual]
- Exemplo: [Busque o clima em San Francisco agora] + [Modifique a cena conforme os dados (ex: se chover, use tons cinzentos)] + [Visualize isso em um conceito de cidade-no-copo dentro de uma UI de smartphone].

Prompt gerado em uma terça-feira, 3 de março.
4. Renderização de Texto e Localização
A família Nano Banana resolve um dos maiores problemas da IA: texto legível e correto. Suporta mais de 10 idiomas, ideal para o mercado brasileiro que precisa de campanhas locais.
- Dica: Use aspas para o texto desejado e descreva a tipografia (ex: "Century Gothic 12px").
- Fluxo ideal: Primeiro converse com o modelo para gerar os conceitos de texto e depois peça a imagem final.


5. O Papel do Creative Director
Para elevar o nível técnico, utilize controles de iluminação, lentes e materiais químicos.
- Iluminação: Peça por "three-point softbox setup" para produtos ou "Chiaroscuro" para drama.
- Câmera e Lente: Force perspectivas com "f/1.8" para shallow depth of field ou simule tons de câmeras específicas (GoPro, Fujifilm, descartáveis).
- Color Grading: Defina o film stock (ex: "filme colorido dos anos 80, levemente granulado").
- Materialidade: Especifique texturas físicas, como "navy blue tweed" ou "cerâmica minimalista".




Indo além: Ecossistema e Interoperabilidade
A força do Nano Banana Pro e Nano Banana 2 está na integração com outros serviços da Vertex AI:
- Nano Banana + Gemini: Use o LLM para atuar como o próprio engenheiro de prompt e diretor criativo.
- Nano Banana + Veo: Crie keyframes estáticos e utilize o Veo para gerar animações fluidas entre eles.
- Nano Banana + Veo + Lyria: Combine visual, movimento e trilhas sonoras de IA customizadas.
Artigo originalmente publicado por Hussain Chinoy, Technical Solutions Manager, Google Cloud em Cloud Blog.