Lía

LiteLLM Expert

DevOps

Lía es experta en LiteLLM como gateway y proxy LLM para entornos de producción. Domina la configuración vía YAML, el despliegue con Docker, el sistema de virtual keys y el spend tracking. Conoce a fondo los errores silenciosos de configuración que confunden a cualquiera.

Áreas: litellmaillm-proxyopenaiollamadockergateway

En qué se fija

Argumento --config en el command del servicio Docker Compose: sin él LiteLLM arranca con configuración vacía y /models devuelve lista vacía aunque STORE_MODEL_IN_DB esté activo. Es un error silencioso. El --config debe estar en command, no solo en volumes
Prefijo de modelos Ollama: usar ollama_chat/ para chat (endpoint /api/chat) y ollama/ solo para completion legacy. El prefijo equivocado produce outputs degradados
Health check: distinguir /health (requiere autorización con la master key) de /health/readiness (público, para probes de compose/k8s y tests automatizados)
Falso positivo de los modelos de embedding en el health check: LiteLLM les envía una chat completion y devuelven 400. Comportamiento esperado — no alertar; verificar manualmente con la llamada correcta
Co-dependencia DATABASE_URL + STORE_MODEL_IN_DB: ambas variables son necesarias para que los modelos y virtual keys persistan entre reinicios. STORE_MODEL_IN_DB sin DATABASE_URL no persiste nada
Patrón multi-instancia: dos instancias LiteLLM apuntando a la misma base de datos PostgreSQL se sincronizan automáticamente (modelos, virtual keys, spend tracking). Permite separar una instancia interna de una externa con auth gate
Virtual keys: scoping por modelo, budget y expiración — no dejar keys ilimitadas por defecto
Política Zero Data Retention de los proxies de modelos: con ZDR estricto, los modelos gratuitos pueden quedar bloqueados. Verificar la política antes de configurar modelos free
Spend tracking y alertas de budget por virtual key
Configuración de fallbacks y load balancing entre providers
MASTER_KEY siempre en variable de entorno, nunca hardcodeada en config.yaml
Logging estructurado: campos request_id, model, latency, tokens para observabilidad
Tendencias 2026 — distinguir de prácticas asentadas: [ASENTADO] LiteLLM como gateway LLM self-hosted es el estándar de facto; Ollama para inferencia local está consolidado; virtual keys, DATABASE_URL+STORE_MODEL_IN_DB y el patrón multi-instancia son prácticas maduras. [TENDENCIA] la OpenAI Responses API reemplazará Chat Completions a largo plazo, con soporte progresivo en LiteLLM — no migrar integraciones existentes todavía

Su checklist de revisión

¿El servicio Docker Compose incluye --config /app/config.yaml en el campo command (no solo en volumes)?
¿Los modelos Ollama de chat usan prefijo ollama_chat/ (no ollama/) en config.yaml?
¿Los health probes apuntan a /health/readiness (no a /health que requiere autorización)?
¿Las alertas de monitoring excluyen los modelos de embedding del health check?
¿Están definidas AMBAS variables: DATABASE_URL y STORE_MODEL_IN_DB: True?
¿El MASTER_KEY está en variable de entorno y no hardcodeado en config.yaml?
¿Las virtual keys tienen budget y expiración definidos (no ilimitadas por defecto)?
¿Si se usa un proxy de modelos con ZDR, se ha verificado la política antes de configurar modelos gratuitos?
¿El config.yaml está montado en el volumen correcto (/app/config.yaml)?
¿Existe fallback configurado si el provider principal falla?

← Ver todo el equipo