4 de junho de 202612 min de leitura

Acelere o Desenvolvimento de Edge AI com Foundry Local

Dom Robinson, samkemp, Inbal Sagiv

Azure

Banner - Acelere o Desenvolvimento de Edge AI com Foundry Local

Acelere o Desenvolvimento de Edge AI com Foundry Local

TL;DR: A Microsoft anunciou o Foundry Local 1.2.0, uma plataforma cross-platform que permite rodar modelos de IA localmente, sem depender de nuvem. A nova versão adiciona transcrição multilíngue com 40+ idiomas, suporte a Linux ARM64, cancelamento de inferência e aceleração via WinML 2.0. Para equipes brasileiras que buscam reduzir custos com API de terceiros e garantir conformidade de dados, a mensagem é clara: é possível desenvolver e escalar aplicações de Edge AI com baixa latência e total controle sobre os dados.


Por que o desenvolvimento de Edge AI ainda é difícil?

A IA não está mais restrita a experimentos em nuvem. Cada vez mais, desenvolvedores precisam entregar inteligência dentro de aplicações, dispositivos e sistemas de borda — onde capacidade de resposta, privacidade, resiliência e controle local são requisitos essenciais. Mas construir essas experiências para produção ainda é um desafio.

Times de engenharia frequentemente precisam resolver empacotamento de modelos, fragmentação de runtimes, diferenças de hardware e complexidade de deployment antes de conseguir entregar uma única funcionalidade confiável. Isso reduz a velocidade de iteração e dificulta a transição de protótipo para produto.

No Microsoft Build 2026, a Microsoft anunciou atualizações no Foundry Local e no Foundry Local on Azure Local que ajudam desenvolvedores a construir uma vez e rodar IA mais perto de onde os dados são gerados e as decisões são tomadas. Essas atualizações expandem o suporte a plataformas, melhoram o controle sobre inferência e aceleração, adicionam novas APIs on-device e simplificam o deployment em ambientes desconectados, regulados e soberanos.

O que há de novo no Foundry Local?

As últimas atualizações do Foundry Local focam nas áreas que mais importam para desenvolvedores: alcance mais amplo de plataformas, APIs familiares, melhor controle de runtime e acesso simplificado à aceleração de hardware. Juntas, essas melhorias ajudam times a avançar mais rapidamente da experimentação para a produção em AI PCs, dispositivos de borda e infraestrutura corporativa.

Foundry Local 1.1.0 (anunciado em maio de 2026)

No mês passado foi anunciada a versão 1.1.0 do Foundry Local — a solução local de IA cross-platform da Microsoft que permite aos desenvolvedores trazer IA diretamente para suas aplicações, sem dependência de nuvem, sem latência de rede e sem custos por token.

As adições da 1.1.0 incluíram:

  • Transcrição de áudio ao vivo para cenários de conversão de fala em texto em tempo real, como legendagem, interfaces de voz e transcrição de reuniões.
  • Text embeddings para busca semântica, RAG, clustering e similaridade.
  • Suporte à Responses API para interações agentivas estruturadas, incluindo tool calling e entrada multimodal visão-linguagem.
  • Plugin WebGPU execution provider entregue separadamente para reduzir o tamanho do pacote padrão.
  • Redução do tamanho do pacote JavaScript com substituição da camada FFI koffi por um addon Node-API C personalizado.
  • Compatibilidade mais ampla com .NET ao mirar versões mais baixas do framework no SDK C#.

Foundry Local 1.2.0: o que chega agora

Hoje estamos anunciando a versão 1.2.0 do Foundry Local, que expande o suporte a idiomas na Live Transcription API, oferece amplo suporte a dispositivos Linux, melhora os workflows de cancelamento e execution provider, adiciona novas opções de API on-device e fortalece a aceleração no Windows com Windows ML (WinML) 2.0.

Principais novidades da 1.2.0:

  • ASR multilíngue: Transcrição de fala em tempo real com suporte a 40+ idiomas, utilizando o modelo NVIDIA Nemotron 3.5 ASR Streaming Multilingual.
from foundry_local_sdk import Configuration, FoundryLocalManager

config = Configuration(app_name="my_app")
FoundryLocalManager.initialize(config)
manager = FoundryLocalManager.instance

model = manager.catalog.get_model(
    "nvidia-nemotron-3.5-asr-streaming-multilingual-0.6b"
)
model.download()
model.load()

session = model.get_audio_client().create_live_transcription_session()
session.settings.sample_rate = 16000
session.settings.channels = 1
session.settings.language = "auto"   # or "de", "zh-CN", "en", ...

session.start()
session.append(pcm_bytes)            # push audio chunks from a mic/file
for result in session.get_stream():
    print(result.content[0].text)    # clean text, inline language tags stripped
session.stop()
  • Suporte a Linux ARM64: Execute Foundry Local em sistemas ARM Linux, incluindo Raspberry Pi 5, NVIDIA Jetson, AWS Graviton e Ampere, ampliando a IA local para mais cenários de borda e embarcados.
  • Downloads mais rápidos com catálogo multi-região: O Foundry Local agora utiliza o Azure Traffic Manager para rotear cada usuário à melhor região, resultando em downloads mais rápidos na primeira execução — sem alterações de código, basta atualizar o SDK para v1.2.0.
  • Cancelamento de downloads e EP em todos os 5 SDKs: Cancele downloads de modelos e execution providers em C#, Python, JavaScript, Rust e C++ usando padrões nativos de cada linguagem.
  • Cancelamento de inferência: Cancele sessões de chat completions e transcrição em andamento de forma limpa, sem desperdício de computação.
  • Progresso de download por EP em Python: Visualize o progresso individual de cada execution provider, em vez de um spinner genérico.
  • Upgrade para Windows ML (WinML) 2.0: Os pacotes WinML do Foundry Local agora incluem o WinML 2.0, removendo a dependência do Windows App SDK e o passo de bootstrap, permitindo que aplicações Python, JavaScript, Rust e C++ obtenham aceleração NPU e GPU sem instalação extra.
  • WebGPU execution provider para WinML: Expanda a cobertura de aceleração GPU em mais hardware Windows com o novo execution provider WebGPU para WinML.

Foundry Local em ação: entrada de voz no GitHub Copilot CLI

O comando de voz do GitHub Copilot CLI é construído sobre o Foundry Local. Quando você dita um prompt no terminal, o áudio é capturado pelo microfone, transmitido para uma sessão de transcrição ao vivo do Foundry Local rodando o modelo Nemotron ASR Streaming, e os resultados parciais e finais são enviados diretamente para o buffer de entrada do CLI — tudo on-device, sem nenhum salto para a nuvem e sem que o áudio saia da máquina.

Para ativar, use /voice on e então fale no Copilot CLI segurando a barra de espaço (ou Ctrl+k v para alternar):

Demonstração do Foundry Local com GitHub Copilot CLI

Não há API privada ou integração personalizada: o CLI usa o mesmo entry point create_live_transcription_session() mostrado no snippet acima, com as mesmas configurações sample_rate, channels, language="auto", o mesmo modelo de push append(pcm_bytes) e o mesmo get_stream(). O cancelamento ao pressionar Esc durante a fala utiliza o novo caminho de cancelamento de inferência da 1.2.0.

Se você tiver o Copilot CLI instalado, execute alguns prompts com voz e observe:

  • Latência ponta a ponta — do áudio ao texto — que é o piso do que uma UX de streaming ASR pode entregar no hardware do usuário.
  • Qualidade — o modelo atinge aproximadamente 8% de taxa de erro de palavras (Word Error Rate).
  • Baixo uso de recursos — o modelo utiliza CPU em percentuais baixos de dígito único durante a transcrição.

Se o comportamento atender ao seu caso de uso, você pode reproduzi-lo em sua própria aplicação com poucas linhas de código usando qualquer um dos cinco SDKs — sem serviços extras para levantar, sem conta de transcrição por minuto.

Como desenvolvedores estão usando o Foundry Local

O Foundry Local já está sendo utilizado em cenários que exigem privacidade, desempenho e diversidade de hardware. De assistentes locais e fluxos de trabalho com documentos a coleta de contexto multimodal e pipelines corporativos de IA, desenvolvedores estão usando a plataforma para reduzir a complexidade e entregar experiências de IA prontas para produção mais rapidamente.

IA local segura e com privacidade

Em aplicações de consumo e fluxos corporativos, o Foundry Local mantém dados sensíveis mais próximos do dispositivo, oferecendo experiências de IA mais rápidas e responsivas.

  • Foxit PDF Editor AI Assistant: Utiliza o Foundry Local para trazer IA segura e local para fluxos de documentos, como perguntas e respostas, resumo, tradução e compreensão de documentos.
  • Raycast: Simplifica a descoberta de modelos e interação local, tornando a IA local mais acessível para usuários finais.
  • Rakuten: Combina IA local no dispositivo com capacidades cloud em um modelo híbrido, reduzindo custos de inferência e melhorando a experiência do usuário.
  • PhonePe: Usa o Foundry Local para insights de transações baseados em IA no app de pagamentos digitais, mantendo dados financeiros no dispositivo.
  • Liquid AI's ShieldFlow: Camada de privacidade on-device que redige dados sensíveis e previne prompt injection antes que qualquer prompt saia do dispositivo.

Portabilidade de hardware e otimização cross-device

Para equipes que constroem em diferentes chips e ambientes de execução, o Foundry Local reduz a complexidade específica de hardware.

  • Cephable: Assistente de IA privado que roda inteiramente no dispositivo, usando o Foundry Local para suportar mais modelos em NPU, GPU e CPU.
  • FlowyAIPC: Integra Foundry Local e Windows ML para resolver o desafio de desacoplamento modelo-hardware em chips Intel, AMD, Qualcomm e NVIDIA.
  • AnythingLLM: Aplicação desktop local-first que utiliza Foundry Local para entregar IA on-device em diversas plataformas de silício sem manter runtimes separados.
  • LUCI Desktop by Memories.ai: Executa modelos multimodais eficientemente em Qualcomm, Intel e AMD sem otimização específica por chip.
  • Model HQ by LLMWare: Habilita pipelines RAG e agentes locais em AI PCs e servidores privados com interface no-code, integrando NPU via Foundry Local.

Coletivamente, esses casos de uso mostram o que o Foundry Local significa na prática: menos barreiras de runtime e hardware, caminhos mais rápidos do protótipo à produção e mais controle sobre como a IA roda em dispositivos reais.

Foundry Local on Azure Local

No Build, a Microsoft também apresentou o Foundry Local on Azure Local (em preview): uma nova plataforma de IA on-premises para rodar modelos, agentes e ferramentas em escala empresarial.

Projetado para organizações que precisam de controle, conformidade e execução de baixa latência, o Foundry Local on Azure Local roda como workloads Kubernetes conteinerizadas no Azure Local e é orquestrado pelo Azure Arc. Ele ajuda equipes a realizar deployments consistentes em ambientes de borda, híbridos e completamente desconectados, mantendo a IA próxima aos dados e operações.

Principais capacidades em preview:

  • Model Catalog on Azure Local — Execute e troque modelos locais e personalizados através de uma API única, sobre inferência ONNX e vLLM, de single-node a multi-node.
  • Agentic Retrieval — Fundamente agentes em dados corporativos com RAG agentivo multi-step e experiência de chat local.
  • Custom MCP tools — Estenda agentes com servidores de ferramentas personalizados usando o padrão Model Context Protocol (MCP).
  • Solution templates for Azure Local — Comece mais rápido com exemplos de código para interfaces de chat e agentes de vídeo baseados no Azure AI Video Indexer.
  • GitHub Enterprise Local — Construa e faça deploy de apps de IA end-to-end on-premises com repositórios locais, pipelines CI/CD e varredura de segurança integrada.
  • Azure Local para dispositivos de fator reduzido — Estenda o Azure Local para PCs industriais e dispositivos robustos para borda de manufatura e varejo.

A Chevron, por exemplo, já está utilizando a solução para levar tomada de decisão baseada em IA para campos remotos e plataformas offshore com conectividade limitada e requisitos de governança rigorosos.

Como começar

Se você quer começar a construir com Foundry Local, inicie com a documentação, explore os samples disponíveis e teste a inferência local no seu próprio fluxo de aplicação. A partir daí, avalie o modelo, runtime e caminho de hardware adequados ao seu cenário, seja para AI PCs, aplicações empresariais, dispositivos de borda ou ambientes desconectados.

Se você está acompanhando o Microsoft Build 2026, estas sessões relacionadas podem ajudar a aprofundar:

  • BRK260 – Build Apps w/ Local AI for Unmetered Intelligence on every Windows PC
  • OD833 – Deploy AI offline: Creating apps with Foundry Local
  • OD837 – Build and deploy AI at the edge for real-world impact
  • OD839 – AI solutions built to power industrial innovation and sovereign control

Perguntas Frequentes

  • O Foundry Local funciona totalmente offline?
    Sim. O Foundry Local foi projetado para rodar modelos de IA diretamente no dispositivo, sem necessidade de conexão com a nuvem. Todo o processamento — desde a transcrição de áudio até a execução de inferência — ocorre localmente, eliminando latência de rede, custos por token e riscos de vazamento de dados.

  • Quais SDKs e linguagens de programação são suportadas?
    O Foundry Local oferece SDKs oficiais para C#, Python, JavaScript, Rust e C++. Dessa forma, times de engenharia podem integrar os recursos de IA local em aplicações existentes sem precisar mudar de stack tecnológica.

  • É possível cancelar uma inferência em andamento?
    Sim. A versão 1.2.0 adiciona suporte para cancelamento de download de modelos e execução de inferência (chat completions e transcrição) de forma limpa, usando padrões nativos de cada linguagem. Isso evita desperdício de recursos computacionais quando o usuário interrompe a ação.

  • Como o Foundry Local se integra ao Azure Local para cenários enterprise?
    O Foundry Local on Azure Local (em preview) permite executar modelos e agentes em clusters Kubernetes on-premises gerenciados pelo Azure Arc. É indicado para organizações que precisam de controle, conformidade e baixa latência em ambientes desconectados, regulados ou soberanos.

  • O Foundry Local já é utilizado em produção?
    Sim. Empresas como Foxit, Raycast, Rakuten, PhonePe e Cephable utilizam o Foundry Local em produção para tarefas como assistentes de documentos, transcrição em tempo real, controle por voz e otimização de inferência em diferentes hardwares (CPU, NPU, GPU).


Artigo originalmente publicado por Dom Robinson, samkemp, Inbal Sagiv em Azure Updates - Latest from Azure Charts.

Gostou? Compartilhe:
Precisa de ajuda?Fale com nossos especialistas 👋
Avatar Walcew - Headset