TL;DR: A Microsoft lançou no Build 2026 quatro novos modelos MAI no Foundry: MAI-Thinking-1 (LLM com Mixture-of-Experts que rivaliza com Claude Opus 4.6 a custo menor), MAI-Image-2.5 (edição de imagem com preservação de identidade e marca), MAI-Voice-2 (clonagem de voz em 15+ idiomas) e MAI-Transcribe-1.5 (transcrição com entity biasing e WER de 3,7%). Para empresas brasileiras, destaca-se a viabilidade econômica de workloads de IA em alto volume e a redução de atritos em workflows de voz e imagem.
O que a Microsoft anunciou no Build 2026?
Desde o lançamento dos modelos MAI-Image-2-Efficient, MAI-Image-2, MAI-Voice-1 e MAI-Transcribe-1 no Microsoft Foundry nesta primavera, a Microsoft vem apostando em oferecer o stack de IA first-party mais completo para desenvolvedores. No Microsoft Build 2026, a empresa deu o próximo passo, anunciando a disponibilidade de novos modelos de Microsoft AI (MAI) no Foundry em quatro modalidades:
- Texto/Raciocínio: MAI-Thinking-1, o primeiro large language model (LLM) da MAI, projetado para entregar raciocínio forte, matemática e inteligência geral a uma fração do custo de outros modelos.
- Imagem: MAI-Image-2.5, que adiciona edição image-to-image e um conjunto de capacidades de "controle com preservação", estreando em 3º lugar no Arena.ai para famílias de modelos de geração de imagem. Também há a versão Flash para maior velocidade e eficiência.
- Voz: MAI-Voice-2, modelo multilíngue de text-to-speech que traz clonagem de voz e voice prompting para mais de 15 idiomas, com versão Flash em breve.
- Fala: MAI-Transcribe-1.5, modelo speech-to-text com suporte a 43 idiomas, adicionando content biasing e precisão aprimorada, mantendo o primeiro lugar no benchmark FLEURS.
Esses modelos já estão alimentando experiências no Copilot, Bing, PowerPoint e Azure Speech, e agora estão disponíveis no Foundry para desenvolvedores criarem suas próprias soluções.
Como o MAI-Thinking-1 muda o jogo de LLMs para empresas?
MAI-Thinking-1 é o primeiro LLM da MAI e foi construído para workloads empresariais em escala. A aposta clara: entregar raciocínio forte, matemática e inteligência geral com uma relação preço-desempenho que torna workloads de IA de alto volume e sempre ativos economicamente viáveis.
A arquitetura Mixture-of-Experts (MoE) ativa seletivamente apenas as partes do modelo necessárias para cada requisição. O resultado: a capacidade escala sem que o poder computacional escale linearmente. Isso é ideal para casos de uso empresariais que exigem contexto profundo — análise de documentos longos, raciocínio multi-step complexo e processamento de extensos traces de agentes sem necessidade de chunking e stitching.
Em testes, MAI-Thinking-1 iguala o Claude Opus 4.6 no SWE-Bench Pro a um custo substancialmente menor, e mostra paridade em preferência com modelos como Sonnet 4.6. A Microsoft destaca que o modelo foi treinado do zero com dados limpos, sem destilação de modelos de terceiros — um ponto relevante para empresas que se preocupam com propriedade intelectual e compliance.
O que o MAI-Image-2.5 oferece para workflows criativos empresariais?
A família MAI-Image-2.5 inclui duas variantes: MAI-Image-2.5 para máxima fidelidade e MAI-Image-2.5-Flash para workloads de produção rápidas e escaláveis. O modelo estreou em 3º lugar no Arena.ai, com ganhos significativos em renderização de texto, ilustração estilizada e imagens comerciais.
MAI-Image-2.5 introduz edição image-to-image com um conjunto de capacidades que adicionam controle enquanto preservam identidade e marca:
- Consistência de identidade e personagem: Preserva rostos reconhecíveis (cabelo, roupas, identidade corporal) em mudanças de estilização, pose e layout — ideal para personagens de marca, porta-vozes e campanhas sociais.
- Controle de estilo e cena: Aplica reestilização completa (anime, color grading, granulação, rejuvenescimento) e reestrutura cenas adicionando, removendo ou reposicionando objetos e ajustando pose e interações humanas.
- Controle de texto, gráficos e layout: Gera tipografia, logotipos e edições responsivas a partir de comandos naturais ("deixe o texto mais arredondado"), e produz infográficos e slides prontos para PowerPoint com hierarquia coerente, alinhamento e adesão a templates.
Esses novos recursos vêm com ganhos de eficiência repassados diretamente aos clientes. A Microsoft afirma que a família MAI-Image-2.5 oferece o melhor ELO de preço versus desempenho do mercado, dando flexibilidade para otimizar workflows de imagem para qualidade, velocidade ou custo.
Como o MAI-Voice-2 e o MAI-Transcribe-1.5 fortalecem o stack de áudio?
Voz e fala continuam sendo a interface principal para a próxima geração de AI agents. Com MAI-Voice-2 e MAI-Transcribe-1.5, a Microsoft está fechando algumas das maiores lacunas que impediam modelos genéricos de atender workflows empresariais de voz.
MAI-Voice-2: uma voz, muitos idiomas
MAI-Voice-2 adiciona duas capacidades principais: preservação de identidade e voice prompting, com expansão para mais de 15 idiomas em um único sistema unificado.
- Preservação de identidade: Recria a identidade vocal única de uma pessoa específica, permitindo que o modelo "fale como" aquele indivíduo em diferentes mercados — útil para vozes de marca consistentes, campanhas localizadas com porta-vozes, assistentes digitais personalizados e soluções de acessibilidade.
- Voice prompting: Usa uma amostra de áudio curta como referência de tom, emoção, sotaque, ritmo e estilo de fala, permitindo que desenvolvedores controlem a entrega sem gerenciar bibliotecas de voz separadas.
Ambas as capacidades operam em todos os idiomas suportados, então uma única voz clonada ou estilo de referência se transporta naturalmente entre mercados sem sistemas separados por idioma.
MAI-Transcribe-1.5: transcrição mais rápida e precisa
MAI-Transcribe-1.5 dobra a aposta na velocidade e custo de MAI-Transcribe-1 — é até 5x mais eficiente que Gemini 3.1 Flash, ScribeV2 e gpt-4o-transcribe no leaderboard Artificial Analysis. Adiciona dois recursos muito solicitados:
- Entity biasing: Prepara o modelo com contexto de domínio — nomes, termos de marca, vocabulário técnico — para transcrever palavras especializadas corretamente em vez de adivinhar a grafia comum mais próxima. Isso resolve uma falha crônica em modelos de fala genéricos em workflows esportivos, empresariais, médicos e técnicos.
- Precisão melhorada: Mantém a acurácia em condições reais de operação — cross-talk, ruído de fundo e reuniões longas — onde modelos genéricos tendem a degradar. No benchmark FLEURS (25 idiomas), o Word Error Rate (WER) melhorou de 3,9% para 3,7%, mantendo a posição de modelo mais preciso.
Como testar os modelos hoje?
Os modelos estão disponíveis no Microsoft Foundry:
- MAI-Thinking-1: Em private preview — solicite acesso aqui.
- MAI-Image-2.5: Disponível no Foundry Model Catalog. Preços: US$ 5/1M tokens (text input), US$ 8/1M tokens (image input), US$ 47/1M tokens (image output).
- MAI-Image-2.5 Flash: Disponível no Foundry Model Catalog. Preços: US$ 1,75/1M tokens (text e image input), US$ 33/1M tokens (image output).
- MAI-Voice-2: Disponível via Azure Speech. Preços: US$ 22/1M caracteres.
- MAI-Transcribe-1.5: Disponível via Azure Speech. Preços: US$ 0,36/hora.
- Experimente no MAI Playground.
1º lugar em WER geral no benchmark FLEURS. Entre as 25 principais línguas globais, MAI-Transcribe-1.5 ocupa o 1º lugar em 11 línguas principais. Vence o Whisper-large-v3 nas 14 restantes e o Gemini 3.1 Flash em 11 dessas 14.
Perguntas Frequentes
-
O que é o MAI-Thinking-1 e como ele se compara a outros modelos?
MAI-Thinking-1 é o primeiro large language model (LLM) da Microsoft AI, com arquitetura Mixture-of-Experts (MoE) que ativa apenas partes do modelo por requisição. Ele iguala o desempenho do Claude Opus 4.6 no benchmark SWE-Bench Pro a um custo substancialmente menor e mostra paridade com Sonnet 4.6 em testes de preferência, sem usar destilação de terceiros. -
Como o MAI-Image-2.5 melhora a edição de imagens para empresas?
MAI-Image-2.5 introduz edição image-to-image com controle de preservação de identidade (rostos, roupas) e consistência de personagem. Permite restilização completa de cena, ajuste de pose, geração de tipografia e infográficos prontos para PowerPoint. A versão Flash oferece maior eficiência para produção em escala. -
Quais são as novidades do MAI-Voice-2 para voz multilíngue?
MAI-Voice-2 adiciona preservação de identidade vocal (clonagem de voz) e voice prompting (referência de tom, emoção, sotaque) em mais de 15 idiomas com um único sistema unificado. Isso permite que uma voz clonada seja usada consistentemente em diferentes mercados sem sistemas separados por idioma. -
O que é entity biasing no MAI-Transcribe-1.5 e por que é importante?
Entity biasing permite pré-configurar o modelo com contexto de domínio (nomes, termos técnicos, marcas) para transcrever palavras especializadas corretamente, evitando suposições. Isso resolve uma falha comum em modelos de fala genéricos em workflows esportivos, médicos, jurídicos e técnicos. -
Como posso testar os modelos MAI?
MAI-Thinking-1 está em private preview (solicite acesso via link no Foundry). MAI-Image-2.5 e MAI-Image-2.5 Flash estão disponíveis no Foundry Model Catalog com preços a partir de US$ 5 e US$ 1,75 por 1M tokens, respectivamente. MAI-Voice-2 e MAI-Transcribe-1.5 estão disponíveis via Azure Speech (preços de US$ 22/1M caracteres e US$ 0,36/hora). Também é possível experimentar no MAI Playground.
Artigo originalmente publicado por Naomi Moneypenny em Azure Updates - Latest from Azure Charts.