O LiteLLM agora trata a Oracle Generative AI Infrastructure como um provedor de primeira classe. Times de engenharia podem unificar o acesso a modelos Meta Llama, xAI Grok, Cohere, Google Gemini e OpenAI gpt-5 por meio de uma única API compatível com OpenAI, com assinatura OCI Signature v1 gerenciada internamente. O ganho prático: eliminar múltiplos SDKs e esquemas de autenticação, centralizar controles de produção (chaves virtuais, budgets, fallbacks, cache, guardrails) e manter dados e credenciais dentro do tenant OCI.
A integração nativa do LiteLLM com a Oracle Generative AI Infrastructure representa um avanço significativo para times que precisam orquestrar múltiplos modelos de linguagem sem proliferar complexidade de integração. Em vez de lidar com SDKs distintos, esquemas de autenticação e políticas de rate limit para cada família de modelo, as equipes podem centralizar o acesso em um único gateway compatível com a API da OpenAI, mantendo o controle de custos, segurança e observabilidade dentro do ambiente OCI.
Por que essa integração é relevante?
Sistemas de IA modernos raramente usam apenas um modelo. Um agente de produção pode chamar um modelo rápido para roteamento, um modelo de contexto longo para recuperação, um modelo de reasoning para planejamento, um modelo de visão para processamento de documentos e um modelo de embedding para memória. Sem um gateway central, cada família de modelo traz seu próprio SDK, esquema de autenticação, formato de requisição e política de rate limit.
O LiteLLM remove essa complexidade. As aplicações chamam a interface familiar OpenAI Chat Completions ou embeddings. O gateway resolve credenciais, escolhe o adaptador correto para cada provedor, transforma a requisição no formato esperado pela Oracle Generative AI Infrastructure, assina a requisição e normaliza a resposta antes de retorná-la à aplicação. Campos específicos do Cohere, formatos genéricos de modelo, controles de reasoning e buffering de streaming ficam encapsulados dentro do gateway.
O que mudou na prática?
O novo guia de provedor e a implementação trazem a integração ao nível de paridade com outras grandes plataformas de inferência em cloud. O suporte anterior era focado em uma contribuição inicial da comunidade para chat Cohere com assinatura manual de requisições. O trabalho atual cobre configuração de proxy, function calling, entrada de visão, parâmetros de reasoning, autenticação baseada em ambiente e o catálogo atual de modelos OCI.
Todos os modelos hospedados na OCI são endereçáveis como oci/<nome-do-modelo>. O código da aplicação não precisa fazer branching para Cohere versus famílias genéricas; ferramentas existentes que já falam a API OpenAI podem apontar para um proxy LiteLLM com mudanças mínimas ou nenhuma.
Exemplo: chamar a OCI através do SDK LiteLLM
from litellm import completion
response = completion(
model="oci/xai.<grok-chat-model>",
messages=[{"role": "user", "content": "Qual a previsão do tempo em São Paulo?"}],
tools=[{
"type": "function",
"function": {"name": "get_current_weather"},
}],
tool_choice="auto",
)
print(response.choices[0].message.tool_calls)
Quais capacidades empresariais o gateway oferece?
Para times de produção, o gateway é útil porque centraliza controles que as equipes precisariam construir separadamente para cada aplicação:
- Chaves de API virtuais com orçamento por chave, limites de RPM e TPM, allowlists de modelos, datas de expiração e atribuição a time ou usuário.
- Rastreamento de custos com atribuição a nível de requisição por chave, time, usuário, modelo ou tag.
- Roteamento e fallback entre regiões OCI ou entre provedores em caso de rate limit ou erro 5xx.
- Cache em backends in-memory, Redis, S3 e Qdrant, nos modos semântico ou exact-match.
- Guardrails e audit logging aplicados uniformemente em todos os provedores, incluindo Oracle Generative AI Infrastructure.
Nota de implantação: o LiteLLM pode ser deployado inteiramente dentro de um ambiente gerenciado pelo cliente na OCI, ajudando organizações a manter prompts, credenciais e dados de aplicação dentro dos limites do tenancy.
Tabela de cobertura
| Capacidade | Cobertura |
|---|---|
| Chat síncrono e streaming | Todas as famílias de provedor |
| Function e tool calling | Cohere + famílias genéricas |
| Visão e entrada multimodal | Meta Llama vision, Cohere Command vision, Google Gemini 2.5 |
| Controles de reasoning | Google Gemini 2.5, OpenAI gpt-5, xAI Grok reasoning |
| Embeddings | Cohere Embed, requisições simples e batch até 96 documentos |
| Autenticação | Credenciais manuais, variáveis OCI_*, OCI SDK Signer, Instance Principal, OKE Workload Identity |
Exemplo: configurar um proxy LiteLLM na frente da OCI
# config.yaml
model_list:
- model_name: oci-grok
litellm_params:
model: oci/xai.<grok-chat-model>
oci_region: os.environ/OCI_REGION
oci_user: os.environ/OCI_USER
oci_fingerprint: os.environ/OCI_FINGERPRINT
oci_tenancy: os.environ/OCI_TENANCY
oci_key_file: os.environ/OCI_KEY_FILE
oci_compartment_id: os.environ/OCI_COMPARTMENT_ID
litellm --config config.yaml
Como usar o LiteLLM como gateway para agentes de IA?
O LiteLLM dá às aplicações um único contrato para todos os modelos da Oracle Generative AI Infrastructure. A camada natural seguinte é o OpenAI Agents SDK, framework open-source da OpenAI para construção de aplicações agênticas. Agentes do SDK podem planejar, chamar ferramentas, delegar tarefas a outros agentes, aplicar guardrails e transmitir eventos para uma interface.
Com o LiteLLM na frente, o Agents SDK pode usar sua classe de modelo compatível com OpenAI nativa. O gateway detém as credenciais de assinatura OCI e aplica controles de plataforma, enquanto o agente carrega apenas uma chave virtual emitida pelo gateway. Isso mantém governança de modelo, atribuição de custos e gerenciamento de identidade em um único ponto.
Exemplo: OpenAI Agents SDK sobre o gateway LiteLLM
from agents import Agent, OpenAIChatCompletionsModel, Runner, set_tracing_disabled
from openai import AsyncOpenAI
set_tracing_disabled(True) # tracing exigiria chave da plataforma OpenAI
client = AsyncOpenAI(
api_key="<virtual-key>", # chave emitida pelo gateway
base_url="http://litellm-gateway:4000",
)
agent = Agent(
name="Assistente de pesquisa",
instructions="Você é um assistente de pesquisa conciso.",
model=OpenAIChatCompletionsModel(model="oci-cohere-command", openai_client=client),
)
result = Runner.run_sync(agent, "Resuma as últimas notícias sobre...")
print(result.final_output)
O que as empresas podem construir com essa stack?
- Agentes multi-modelo que mantêm planejamento, execução de ferramentas, memória e visão dentro do mesmo tenant e compartimento OCI.
- Aplicações compatíveis com a API OpenAI que podem ser redirecionadas para a Oracle Generative AI Infrastructure sem troca de SDK.
- Pipelines de documentos e imagens que usam o mesmo bloco
image_urljá suportado por APIs de visão compatíveis com OpenAI. - Configurações de roteamento híbrido onde o LiteLLM faz failover da Oracle Generative AI Infrastructure para outro provedor, ou vice-versa, sem alterações no código da aplicação.
Conclusão
Esta release transforma o LiteLLM em um gateway empresarial prático para a Oracle Generative AI Infrastructure. Combinado com o OpenAI Agents SDK, a stack ajuda empresas que rodam em OCI a evoluir de algumas chamadas de API para sistemas agênticos governados, observados e multi-tenant, com roteamento, gastos, cache, guardrails e auditoria necessários para produção.
Próximos passos:
- Configure o gateway: acesse a documentação do provedor LiteLLM para OCI; instale o litellm, então configure as variáveis OCI_* ou anexe um signer OCI.
- Valide os detalhes atuais da OCI: consulte a documentação da Oracle Generative AI; confirme identificadores de modelo, opções de serving e datas de descontinuação antes de publicar exemplos.
- Construa deployments agênticos: veja o OpenAI Agents SDK no GitHub e a documentação oficial; use o SDK quando precisar de workflows multi-agente governados sobre o gateway.
Perguntas Frequentes
-
Como o LiteLLM lida com a autenticação OCI?
O LiteLLM utiliza internamente a assinatura OCI Signature v1 para autenticar requisições. Suporta autenticação via variáveis de ambiente (OCI_*), Instance Principal e OKE Workload Identity, sem expor chaves de API nas aplicações clientes. -
Preciso modificar meu código para usar modelos OCI através do LiteLLM?
Não, se sua aplicação já consome a API OpenAI Chat Completions ou embeddings. Basta apontar o base_url para o proxy LiteLLM e usar o formato de modelo oci/. Nenhuma alteração de SDK é necessária. -
Quais modelos da Oracle Generative AI Infrastructure são suportados?
Todos os modelos do catálogo OCI são endereçáveis: Meta Llama, xAI Grok, Cohere Command e Embed, Google Gemini e OpenAI gpt-5, incluindo variantes de visão, reasoning e embeddings. O LiteLLM transforma automaticamente as requisições para o formato esperado por cada família. -
O LiteLLM pode ser implantado dentro do meu ambiente OCI?
Sim. O LiteLLM pode ser deployado inteiramente em um ambiente gerenciado pelo cliente na OCI, mantendo prompts, credenciais e dados de aplicação dentro dos limites do tenancy — essencial para empresas que exigem soberania de dados. -
Como o LiteLLM se integra com o OpenAI Agents SDK?
O OpenAI Agents SDK usa a classe OpenAIChatCompletionsModel apontando para o gateway LiteLLM. O gateway gerencia assinatura OCI, orçamento e observabilidade, enquanto o agente carrega apenas uma chave virtual emitida pelo gateway — centralizando governança e atribuição de custos.
Artigo originalmente publicado por Federico Kamelhar em cloud-infrastructure.