15 de maio de 20266 min de leitura

De Copilots a Co-workers: Como agentes de IA estão transformando a operação de redes na Azure

Banner - De Copilots a Co-workers: Como agentes de IA estão transformando a operação de redes na Azure

TL;DR

Este artigo analisa como a infraestrutura global da Microsoft, composta por milhões de dispositivos, superou a barreira de coordenação humana introduzindo agentes autônomos. Em vez de apenas automatizar tarefas, a Azure utiliza esses "colegas digitais" com papéis e políticas definidos para gerenciar desde reparações de fibra até a orquestração de data centers. A mudança transformou silos operacionais, reduziu o tempo de mitigação em até 50% e diminuiu em 78% o esforço manual em ciclos de vida de incidentes.

O desafio: Operando uma rede física em escala global

A Azure opera uma das maiores redes físicas do planeta. Essa escala molda mais do que apenas decisões de infraestrutura; ela reconfigura profundamente como o trabalho operacional deve ser organizado.

Centenas de milhares de quilômetros de fibra óptica e mais de um milhão de dispositivos óticos conectam data centers, regiões e serviços globais da Microsoft. Cada interação do cliente com a Azure depende, em última análise, de essa rede física operar corretamente, continuamente e em alta velocidade.

Com o crescimento da rede, o gargalo mudou. A detecção, o monitoramento e o re-roteamento de tráfego já são altamente automatizados. Onde as equipes ainda enfrentam dificuldades é no que acontece em seguida: coordenar as reparações físicas, rastrear o progresso entre múltiplos sistemas e fornecedores, validar os resultados e manter o fluxo de trabalho até que o problema seja efetivamente resolvido.

Sob modelos operacionais pré-IA, a demanda por coordenação cresceu mais rápido do que a capacidade de adaptação das equipes. A restrição não era mais o roteamento técnico, mas sim a carga de atenção humana necessária para manter o trabalho distribuído alinhado por horas ou dias.

É aqui que a maior parte da sobrecarga operacional se acumula. Quando ocorrem incidentes, o overhead operacional se torna crítico:

  • As operações de campo, substituições de hardware e remediação de incidentes consomem mais tempo devido à necessidade de coordenação multi-empresa e multi-região.
  • Engenheiros gastam uma parte desproporcional do tempo aguardando atualizações, fazendo follow-ups, validando correções e traduzindo contextos entre diferentes sistemas.

Ao contrário de desafios de escala anteriores, que poderiam ser resolvidos com automação puramente baseada em código, o "meio-termo confuso" das operações é, por natureza, não-determinístico. Ele envolve julgamentos humanos, informações incompletas e dependências assíncronas.

Como tratar a coordenação como um problema de engenharia de primeira classe?

Em vez de adicionar centenas de scripts ou expandir uma automação frágil, a Azure redesenhou o fluxo de coordenação do trabalho, integrando agentes de IA como participantes ativos nas operações diárias. Nas fases iniciais dessa transformação, era comum tratar agentes apenas como ferramentas, mas agora eles são parte integrante do sistema.

Esse processo evoluiu gradualmente:

  • Começamos com copilots conversacionais, que permitiam aos engenheiros consultar o estado e a telemetria de dispositivos usando linguagem natural, reduzindo o atrito no troubleshooting diário.
  • Avançamos para o deploy de agentes de fluxo de trabalho autônomos, que executam ações direcionadas para processos operacionais específicos de ponta a ponta.

Fluxo de RMA

Esses agentes autônomos atuam como "colegas digitais", integrando-se ao trabalho de mais de 10.000 profissionais, como técnicos de data center, engenheiros de rede e hardware. Eles recebem metas claras e mantêm o contexto ao longo de horas ou dias para conduzir tarefas complexas, desde a remediação de fibra ou processos de RMA até a orquestração do deployment de um data center. Na prática, atuam como motores de execução que minimizam a sobrecarga cognitiva humana, recorrendo a especialistas apenas para decisões que envolvem alto risco.

Os agentes operam nos canais que os engenheiros já utilizam — filas de tickets, sistemas de telemetria, Microsoft Teams e e-mail. Isso os mantém ancorados nos fluxos de trabalho reais. À medida que iteramos através de ciclos de feedback, gerenciamos bases de conhecimento que permitem aos agentes atuar com maior consistência.

Organização de agentes Azure

Estruturamos esses agentes dentro de uma organização própria, regida por um control plane que define identidades, papéis, habilidades, políticas e auditabilidade. As permissões variam de acordo com o nível de risco e a classe do agente, mas a responsabilidade humana permanece, garantindo que o controle final sempre recaia sobre os especialistas.

Quais os impactos quando os agentes assumem a coordenação?

Quando os agentes se tornam a camada padrão de coordenação, observamos mudanças profundas:

  • A coordenação entre fornecedores e regiões torna-se consistente e contínua.
  • Atualizações são validadas contra telemetria ao vivo, em vez de serem aceitas sem verificação.
  • Ações falhas são detectadas rapidamente e retentativas ocorrem até atingir o critério de sucesso.
  • Incidentes que se prolongam por falhas em handoffs são drasticamente reduzidos.

Comparação de tempo de reparo

Os resultados são claros: mitigação 2x mais rápida em incidentes como rompimento de fibra e até 78% de redução no esforço manual. A colaboração humano-agente ocorre nos mesmos canais, tornando a troca de informações quase instantânea enquanto o engenheiro se mantém no loop para guiar o resultado.

Resumo de RCA por agente

Perguntas Frequentes

  • Qual é a principal diferença entre os copilots e os novos agentes autônomos da Azure?
    Os copilots são ferramentas de auxílio a consultas operacionais, enquanto os agentes autônomos possuem autonomia para executar fluxos de trabalho de ponta a ponta, carregando contexto por períodos prolongados e tomando decisões baseadas em metas definidas.

  • Como é garantido o controle humano sobre os agentes de IA em operações críticas?
    A governança é feita via um control plane que define identidades, papéis e políticas de risco; mudanças de alto impacto ou irreversíveis exigem aprovação humana explícita, mantendo os especialistas no comando das decisões, enquanto a IA foca na execução.

  • Como os agentes interagem com a equipe de engenharia e operações no dia a dia?
    Eles operam dentro dos mesmos canais corporativos (Teams, e-mail, sistemas de tickets), garantindo transparência. Os engenheiros, por sua vez, intervêm apenas em casos de ambiguidade ou exceção, deixando a coordenação repetitiva para a IA.


Artigo originalmente publicado em Azure Updates - Latest from Azure Charts.

Gostou? Compartilhe:
Precisa de ajuda?Fale com nossos especialistas 👋
Avatar Walcew - Headset