Dois movimentos recentes em IA chamam atenção: a quantização de baixo nível permite que modelos de raciocínio enormes rodem em hardware modesto, e uma nova geração de modelos OCR redefine precisão e throughput na extração de documentos. Este artigo analisa Command A+, Chandra OCR 2 e GLM-OCR – disponíveis no Microsoft Foundry – destacando impactos práticos para empresas brasileiras que buscam eficiência operacional e redução de custos.
Estamos vendo duas tendências distintas esta semana. A primeira é como a quantização de baixa evolução (low-bit quantization) chegou ao ponto onde modelos grandes de raciocínio cabem em um único acelerador com perda de qualidade mínima. A segunda: uma nova onda de modelos de visão-linguagem especializados em OCR está redefinindo a fronteira entre precisão e throughput para entendimento de documentos.
Esta semana destacamos três modelos do Hugging Face no Microsoft Foundry: Cohere Labs' Command A+ (W4A4), um modelo de raciocínio de 218B parâmetros (Sparse Mixture-of-Experts) otimizado para tarefas agentivas, multilíngues e de raciocínio intensivo; Datalab's Chandra OCR 2, um modelo visão-linguagem de 5,3B que converte imagens e PDFs para Markdown, HTML e JSON preservando layout, com estado da arte no benchmark olmOCR e cobertura de 90+ idiomas; e Z.ai's GLM-OCR, um modelo compacto de 0,9B – cerca de 6× menor que o Chandra OCR 2 – construído na arquitetura GLM-V e que alcança o primeiro lugar no OmniDocBench V1.5 com alta concorrência.
Modelos da Semana
Por que o Command A+ (W4A4) é um marco para inferência de raciocínio?
Especificações
- Parâmetros: 218B total, 25B ativos por token
- Contexto: 128K entrada, 64K saída
- Tarefa principal: Geração de texto com entrada visual, raciocínio e uso de ferramentas
O que chama a atenção
-
Implantação eficiente: Command A+ foi projetado para rodar em hardware relativamente modesto para seu tamanho, mantendo alta performance. A quantização W4A4 (pesos com 4 bits, ativações com 4 bits) reduz drasticamente computação, latência e custo. Modelos de raciocínio são especialmente sensíveis à quantização, pois erros podem se acumular em sequências longas. Para mitigar isso, o modelo quantizado é pós-treinado contra a distribuição de saída do professor em precisão total, usando fake quantization no forward pass e straight-through estimators na retropropagação. A Cohere Labs recomenda a quantização W4A4 pelo equilíbrio ideal entre velocidade e latência.
-
Ganhos multilíngues e multimodais: Command A+ agora suporta 48 idiomas (antes 23) e traz melhorias mensuráveis em entendimento de documentos, raciocínio matemático e workflows de QA empresarial.
Experimente
Teste este prompt no Hugging Face Space da Cohere Labs antes de implantar no Foundry:
Prompt de exemplo: You are Command, a legal AI for multinational contract review... (prompt original em inglês)
Chandra OCR 2: A nova referência para extração de documentos complexos
Especificações
- Parâmetros: 5,3B
- Formatos de saída: Markdown, HTML, JSON
- Tarefa principal: OCR de documentos (imagem-texto)
Diferenciais
- Estado da arte no benchmark olmOCR: 85,9% no olmOCR Benchmark e 77,8% em multilíngue (12% de melhoria sobre o Chandra 1).
- Cobertura de 90 idiomas: scripts índicos, europeus e idiomas da direita para a esquerda mostram melhorias substanciais segundo benchmarks internos da Datalab. Lista completa de idiomas.
- Entendimento de layout complexo: lida com tabelas multinível, estruturas aninhadas, formulários, matemática e manuscritos mistos, gerando saída estruturada (HTML/JSON/Markdown + bounding boxes), eliminando a necessidade de reconstrução pós-OCR.
Cenário prático
Crie um pipeline automatizado de compliance intake usando Chandra OCR 2 para extração estruturada de documentos complexos, manuscritos e baseados em formulários. Imagine uma comissão eleitoral estadual processando grandes volumes de declarações de candidatos enviadas como formulários escaneados ou imagens de celular. O modelo extrai campos impressos e manuscritos, identifica a estrutura do formulário e captura elementos como informações do candidato, estado de checkboxes e declarações assinadas em JSON consistente.
Prompt de exemplo: Extract all fields from this filing and return a structured JSON output including form type, candidate name, office sought, district, committee name, treasurer, filing date, checkbox states, and a transcription of the signed declaration. Include bounding boxes for each extracted field.
GLM-OCR: Precisão em escala compacta para alto throughput
Especificações
- Parâmetros: 0,9B
- Idiomas: Chinês, Inglês, Francês, Espanhol, Russo, Alemão, Japonês, Coreano
- Tarefa principal: OCR de documentos
Por que é interessante
- Alta acurácia em escala compacta: 94,62 no OmniDocBench V1.5, com desempenho forte em reconhecimento de fórmulas, extração de tabelas e parsing de documentos – mesmo em escala sub-1B.
- Treinamento otimizado: usa Multi-Token Prediction (MTP) e reinforcement learning em todas as tarefas para melhorar estabilidade e acurácia.
- Eficiente para implantação real: seu footprint pequeno o torna ideal para pipelines OCR escaláveis onde custo, latência e throughput são críticos.
Cenário prático
Construa um pipeline de ingestão de documentos de alto throughput para uma plataforma de onboarding de clientes que processa documentos de identidade, faturas e comprovantes de renda em múltiplos idiomas. GLM-OCR extrai campos-chave – nomes, números de ID, datas, endereços – em formato estruturado para sistemas downstream.
Prompt de exemplo: Extract the following fields from this document and return a structured JSON output: full name, ID number, date of birth, address, document type, and expiration date. Ensure all fields match the document exactly, including formatting.
Como começar?
Seja vindo diretamente do Hugging Face Hub ou já dentro do Microsoft Foundry, implantar esses modelos está cada vez mais simples. Você pode fazer o deploy pelo catálogo de modelos do Foundry ou escolher "Deploy on Microsoft Foundry" diretamente no site do Hugging Face, que já configura inferência segura e escalável. Documentação:
- Leia a documentação do Hugging Face no Azure
- Saiba mais sobre deploys com um clique do Hugging Face Hub no Microsoft Foundry
- Explore modelos no Microsoft Foundry
Perguntas Frequentes
-
Qual a principal vantagem do Command A+ (W4A4) para empresas que lidam com múltiplos idiomas?
O Command A+ suporta 48 idiomas (contra 23 da versão anterior) e é otimizado para tarefas de raciocínio complexo e uso de ferramentas. Isso permite que empresas brasileiras com operações multilíngues, especialmente em contratos e compliance, reduzam custos de inferência sem perder precisão. -
Como o Chandra OCR 2 se diferencia de outros modelos OCR para documentos complexos?
Com 5,3B de parâmetros, o Chandra OCR 2 alcança 85,9% no benchmark olmOCR e suporta 90 idiomas. Sua capacidade de entender layouts complexos (tabelas, formulários, manuscritos) e gerar saída estruturada (JSON, HTML, Markdown) elimina a necessidade de pós-processamento, agilizando pipelines de automação. -
O GLM-OCR é adequado para cenários de alto throughput no Brasil?
Sim, com apenas 0,9B de parâmetros e pontuação 94,62 no OmniDocBench, o GLM-OCR é ideal para extração em larga escala de documentos como identidade, comprovantes e notas fiscais. Seu baixo consumo de recursos permite servir dezenas de requisições simultâneas com baixa latência. -
Esses modelos podem ser implantados diretamente no Azure via Microsoft Foundry?
Sim, os três modelos estão disponíveis no catálogo do Microsoft Foundry e podem ser implantados com um clique a partir do Hugging Face Hub. A Nuvem Online pode auxiliar na configuração de pipelines seguros e escaláveis, ajustando recursos de inferência para custo-efetividade.
Artigo originalmente publicado em Azure Updates - Latest from Azure Charts.