4 de junho de 20265 min de leitura

Azure AI Search agora suporta chunking semântico e verbalização de imagens — o que isso muda para indexação inteligente

O Azure AI Search lançou em public preview o suporte a Content Understanding chunking e image verbalization — duas habilidades que expandem a skill de parsing de documentos durante a indexação. Na prática, indexadores podem agora dividir documentos em chunks semanticamente coerentes (em vez de arbitrários) e gerar descrições textuais de imagens automaticamente, tudo dentro do pipeline de indexação.

TL;DR: O Azure AI Search agora permite chunking semântico (divisão inteligente de documentos em partes significativas) e image verbalization (geração automática de descrições textuais de imagens) durante a indexação. Isso melhora buscas por contexto, viabiliza RAG mais preciso e reduz necessidade de pipelines paralelos. Empresas brasileiras podem ganhar em qualidade de retrieval sem aumentar custos operacionais significativos, desde que planejem o impacto no throughput e no orçamento de tokens.

O que muda para indexação de documentos complexos?

Até então, a indexação de documentos no Azure AI Search dependia de estratégias externas de chunking (como splits fixos baseados em caracteres ou tokens), ou de skills customizadas. O Content Understanding chunking resolve o problema de forma nativa: o serviço analisa a estrutura do documento — parágrafos, títulos, listas, tabelas — e divide o conteúdo em unidades semanticamente completas. Para empresas brasileiras que lidam com contratos longos, relatórios regulatórios ou documentação técnica extensa, isso significa que as buscas vão retornar trechos completos de informação, e não fragmentos truncados que perdem o contexto.

Já a image verbalization vai além do OCR tradicional. Em vez de apenas extrair texto de imagens, o mecanismo gera descrições linguísticas do conteúdo visual — como um gráfico financeiro, o layout de uma planta baixa ou uma foto de produto. Essas descrições são armazenadas como campos textuais indexáveis, permitindo buscas por “gráfico de vendas do trimestre” ou “foto de sapato vermelho”. Para setores como e-commerce, medicina diagnóstica e arquitetura, isso abre portas para buscas multimodais sem a complexidade de modelos de visão dedicados.

A combinação de chunking semântico e verbalização de imagens reduz a necessidade de pipelines paralelos para processamento de mídia. Antes, para habilitar busca em imagens, era preciso extrair texto via OCR, gerar embeddings de imagem separadamente e armazenar em diferentes índices. Agora, o Azure AI Search centraliza esse processo, simplificando a manutenção e diminuindo latência de indexação. Contudo, é crucial monitorar o consumo de tokens — a verbalização e o chunking dependem de modelos de linguagem, o que pode elevar custos operacionais. Empresas brasileiras devem fazer provas de conceito com volumes reais de documentos para calibrar o trade-off entre qualidade de retrieval e orçamento.

Quais cuidados considerar antes de adotar?

Embora a funcionalidade esteja em preview, já é possível testá-la em ambientes de desenvolvimento. Pontos de atenção:

  • Limites de taxa (rate limits): a skill de Content Understanding pode ter throttling dependendo do SKU do Azure AI Search.
  • Precisão da verbalização: ainda depende da qualidade do modelo subjacente; imagens muito complexas ou com sobreposição de texto podem gerar descrições imprecisas.
  • Compatibilidade com indexadores existentes: a nova skill pode ser adicionada a skillsets, mas exige ajustes na definição dos índices para armazenar os novos campos.
  • Governança e responsabilidade: descrições geradas por IA devem ser revisadas em cenários críticos (ex.: diagnósticos médicos), especialmente sob a LGPD.

Como testar na prática?

Para habilitar, basta adicionar a skill #Microsoft.Skills.Text.ContentUnderstandingSkill ao skillset do indexador, configurando o modo de chunking (semanticChunking) e a opção de imageVerbalization. Exemplo de configuração simplificada:

{
  "@odata.type": "#Microsoft.Skills.Text.ContentUnderstandingSkill",
  "context": "/document",
  "chunkingMode": "semanticChunking",
  "imageVerbalization": true,
  "inputs": [
    {"name": "text", "source": "/document/content" },
    {"name": "images", "source": "/document/images" }
  ],
  "outputs": [
    {"name": "chunks", "targetName": "chunks" },
    {"name": "imageDescriptions", "targetName": "imageDesc" }
  ]
}

Lembre-se de que o consumo de tokens será debitado no recurso de Azure AI Services associado.

Perguntas Frequentes

  • Como o Content Understanding chunking difere da divisão por tamanho fixo de chunks?
    Enquanto a divisão por tamanho fixo (ex.: 512 tokens) ignora a estrutura do documento, o chunking semântico identifica fronteiras naturais (parágrafos, seções, frases) para manter a coesão de conteúdo. Isso resulta em chunks com maior sentido contextual, melhorando a qualidade da recuperação em sistemas de RAG e busca vetorial.

  • A image verbalization substitui completamente o OCR ou análise de imagem tradicional?
    Não substitui, mas complementa. Em vez de apenas extrair texto de imagens (OCR), a verbalização gera descrições narrativas do conteúdo visual — como identificar objetos, ações ou contextos. Isso é útil para cenários onde a imagem carrega informação não textual (gráficos, diagramas, fotos), mas não elimina a necessidade de OCR para documentos com texto embutido.

  • Essa funcionalidade tem custo adicional no Azure AI Search?
    Sim, como preview, os custos estão atrelados ao consumo de tokens do modelo de linguagem usado pela skill de Content Understanding. Haverá cobrança adicional pelas chamadas de API e pelo processamento de imagens. Empresas devem avaliar o volume de documentos e imagens para estimar o impacto, especialmente se combinarem chunking + verbalização em larga escala.

  • Quais casos de uso brasileiros se beneficiam mais dessa novidade?
    Setores como jurídico (análise de contratos com anexos visuais), saúde (laudos com exames de imagem), varejo (catalólogos de produtos com fotos) e governo (digitalização de documentos históricos) podem usar chunking para buscas mais precisas e verbalização para tornar imagens pesquisáveis por texto. A redução de pipelines paralelos simplifica a arquitetura.


Artigo originalmente publicado em Azure Updates - Latest from Azure Charts.

Gostou? Compartilhe:
Precisa de ajuda?Fale com nossos especialistas 👋
Avatar Walcew - Headset