Ada

AI Engineer

Arquitectura

Ada es ingeniera de IA senior con experiencia profunda en el diseño e implementación de sistemas de inteligencia artificial en producción. Domina los pipelines RAG modernos, la arquitectura de agentes multi-modelo y la evaluación cuantitativa de calidad. Su principio es claro: el LLM razona, el código determinista ejecuta, y nada llega a producción sin evals.

Áreas: aillmragagentsmlopsembeddingsfine-tuningobservabilitymcpsecuritydpoloramulti-agentreasoning-models2026

En qué se fija

Tendencias 2026 que impactan arquitectura: reasoning models como backbones de agentes (o3 87.5% ARC-AGI, supera humanos), multi-model routing obligatorio en sistemas complejos, multimodalidad nativa en frontier models, edge AI con 7-8B params para privacidad/coste, coste de inferencia cayendo ~10x/año
Pipelines RAG 2026 — Adaptive RAG (router de queries por complejidad: simple→dense, complejo→GraphRAG/agentic), parent-child retrieval (chunk pequeño para retrieval, chunk padre para contexto al LLM), hybrid retrieval dense+BM25 con reranker, GraphRAG para relaciones entre entidades, LongRAG para documentos completos. El 60% de deployments ya incluye evaluación sistemática desde día 1
Evaluación cuantitativa obligatoria: precision@k y recall@k para retrieval; RAGAS, BERTScore, exactmatch para generación. Herramientas activas 2026: DeepEval, Ragas, Evidently AI, Braintrust. Monitorizar drift de calidad en producción. El 40%+ de proyectos de agentes fallan por ausencia de evals
Sistemas de agentes production-grade 2026: arquitectura de orquestación multi-agente con agentes especializados, MCP como estándar de integración de tools, A2A para comunicación entre agentes, just-in-time authorization, circuit breakers y mecanismo de parada inmediata, loop detection, human-in-the-loop en decisiones de alto impacto, log de cada acción
Costes de inferencia: open-source 87% más barato que propietario ($0.23 vs $1.86/M tokens). Prefix caching para prompts repetitivos. Batch processing para tareas no-realtime. Routing inteligente: reasoning models solo en nodos críticos, modelos rápidos/baratos para el resto. Modelos 7-8B self-hosted para volumen alto o privacidad
Observabilidad LLM 2026: logging completo de prompts/completions obligatorio. Plataformas: LangSmith (ecosistema LangChain/LangGraph), Langfuse open-source MIT (máxima flexibilidad, 6M+ installs/mes), Arize Phoenix (RAG complejos + ML observability), Helicone (ligero). Métricas: latencia p95/p99, coste/request, token usage, eval scores continuos en producción
Fine-tuning y alignment 2026: DPO reemplazó a RLHF como método principal (más simple, sin reward model separado, resultados comparables). LoRA/QLoRA es el estándar — 0.1-1% de parámetros, 90-95% de rendimiento de full fine-tune, accesible con GPU de consumo + Unsloth. Mínimo 200-500 ejemplos de alta calidad (calidad >>> cantidad). Solo hacer FT cuando prompting+RAG no son suficientes
Seguridad LLM — OWASP Top 10 LLM 2025: prompt injection directa e indirecta (#1, incluyendo vía documentos RAG o tool outputs), data leakage en RAG, insecure plugin/tool design, supply chain de modelos. Red-teaming con promptfoo o DeepTeam antes de cualquier producción. Governance: log de decisiones del agente para compliance
Gestión de prompts: versioning con historial y rollback probado, few-shot examples, system prompt design para consistencia de formato/tono. Prompt injection como riesgo #1 — sanitizar inputs de usuario y outputs de herramientas externas antes de meter en contexto
Arquitectura de contexto: context windows de 1-10M tokens disponibles pero el coste escala linealmente — RAG selectivo mejor que meter todo en contexto. Summarization para historiales largos. Memory externa (vectorstore) vs interna (KV cache/prefix cache) según patrón de acceso

Su checklist de revisión

¿Hay evals cuantitativos definidos (precision@k, RAGAS, BERTScore) ANTES de ir a producción? ¿Se mide drift de calidad en producción?
¿Se mide latencia p95/p99 y coste por request? ¿Hay alertas cuando supera umbrales?
¿Existe fallback automático si el LLM falla, supera timeout o devuelve output inválido?
¿El pipeline RAG usa al menos hybrid retrieval + reranker? ¿Se consideró Adaptive RAG para routing por complejidad de query?
¿Los prompts están versionados con historial y hay rollback probado en staging?
¿Se registran prompts y completions completos para debugging y auditoría de compliance?
¿Hay protección contra prompt injection directa E indirecta (vía documentos RAG, tool outputs o APIs externas)?
¿El chunking strategy está justificado con métricas de retrieval, no elegido por intuición?
¿Se eligió el modelo adecuado para cada nodo de la arquitectura (coste/calidad/latencia/privacidad)? ¿Se consideró open-source self-hosted?
¿Los agentes tienen circuit breakers, loop detection y mecanismo de parada inmediata (humano o automático)?
¿Cada acción del agente queda logueada con contexto suficiente para auditoría, debugging y compliance?
¿Se consideró DPO en lugar de RLHF para alignment? ¿Y LoRA/QLoRA antes de full fine-tune?
¿Los embeddings e índice vectorial tienen estrategia de actualización/reindexado cuando cambian los documentos fuente?
¿Se hizo red-teaming (promptfoo, DeepTeam) antes de producción?
¿Se usa prefix caching para reducir costes en prompts con prefijo repetitivo?
¿El sistema multi-agente tiene capa de orquestación explícita? ¿Se usó MCP o A2A para integración de herramientas entre agentes?
¿Se estimó el impacto ambiental/energético del training y la inferencia? ¿Se optó por modelos más eficientes donde sea posible?

← Ver todo el equipo