Nuevo
Harness Engineering
IA confiable en producción, no solo en demos
El 73% de los proyectos de IA no llegan a producción. La razón nunca es el modelo — es el "harness": la infraestructura que rodea al agente. Diseñamos, instrumentamos y operamos el andamiaje que vuelve confiables a tus agentes de IA.
El Concepto
Agente = Modelo + Harness
Cuando un agente de IA falla en producción, casi nunca es culpa del modelo. Es culpa del harness: el conjunto de tools, context management, memoria, evaluaciones, guardrails y observabilidad que rodea al modelo.
Anthropic y OpenAI popularizaron el término para describir una disciplina nueva: dejar de optimizar prompts aislados y empezar a diseñar el sistema completo que hace que un agente funcione de forma consistente, observable y segura a lo largo del tiempo.
En SISCON aplicamos esta disciplina a los agentes que construimos — y también a agentes que otros equipos ya tienen desplegados y necesitan "industrializar".
Servicios
Qué construimos en tu harness
Cuatro áreas de trabajo que pueden ir juntas o por separado según dónde estés en tu journey de IA.
🏗️ Scaffolding y Diseño de Agentes
Definimos la arquitectura previa al primer prompt: system prompts versionados, tool schemas bien tipados, subagentes con responsabilidades acotadas y un AGENTS.md que documenta reglas arquitectónicas que el agente respeta por defecto.
🧠 Context Engineering y Memoria
Compactación inteligente de contexto para sesiones largas, RAG sobre tus fuentes corporativas con ChromaDB, archivos de progreso para coordinar múltiples contextos, y patrones de context isolation.
📈 Evaluación y Observabilidad
Pipelines de evals automatizados (golden sets, LLM-as-judge, regression tests), trazabilidad completa con Langfuse, dashboards de calidad por caso de uso y alertas cuando una nueva versión del modelo degrada el desempeño.
🛡️ Safety, Guardrails y Cost Control
Defense-in-depth con capas independientes (validación de inputs, filtros de outputs, sandboxes para tool use peligroso, human-in-the-loop en pasos críticos), presupuestos por tarea y circuit breakers ante comportamiento anómalo.
🔗 Servicios relacionados: El Harness Engineering es la capa operativa que hace productivos a los Agentes de IA y a la Automatización Inteligente. Si ya tienes agentes en piloto pero no logras que lleguen a producción con SLA, este es el servicio que necesitas. Si todavía no tienes agentes, empieza por Consultoría en Estrategia de IA.
Metodología
Guides + Sensors: el modelo feedforward/feedback
Adoptamos el framework de harness engineering que Thoughtworks, Anthropic y OpenAI han publicado: cada comportamiento del agente se controla con una guía (antes de actuar) y un sensor (después de actuar).
🎯 Guides (feedforward)
Anticipan el comportamiento del agente y lo guían antes de que actúe. Aumentan la probabilidad de acierto al primer intento.
Ejemplos: System prompts estructurados, AGENTS.md con reglas del dominio, tool descriptions explícitas, ejemplos de invocación (few-shot), plantillas de planificación obligatorias.
🔎 Sensors (feedback)
Observan después de que el agente actuó y le permiten auto-corregirse.
Ejemplos: Linters custom, validadores de schema en outputs, tests unitarios post-generación, evals LLM-as-judge, revisores que escalan a humano cuando la confianza es baja.
Proceso
Cómo Trabajamos
Auditamos
Mapeo del harness actual: qué guides y sensors existen, qué falta.
Diseñamos
Propuesta de scaffolding, evals, observabilidad y guardrails.
Instrumentamos
Implementación iterativa con Langfuse, pipelines de evals y cost controls.
Operamos
Monitoreo continuo, tuning de guides/sensors y respuesta a regresiones.
Casos de Uso
Dónde el harness hace la diferencia
Escenarios típicos donde nuestros clientes pasan de "tenemos un demo" a "tenemos un producto".
🔧 Agente de código en producción
Harness con subagents especializados (plan/code/review/test), sandboxes para ejecución segura y regresión automática en cada cambio. Resultado típico: -60% errores en PRs, -40% costo por tarea.
🎫 Soporte con SLA garantizado
Context engineering sobre KB interna, evals nocturnos contra golden set, fallback determinístico cuando la confianza es baja y métricas de deflection publicadas.
🔬 Research agents de larga ejecución
Archivos de progreso entre sesiones, compactación con preservación de decisiones clave, trazabilidad completa de fuentes y verificación de citas.
📑 Procesamiento documental crítico
Schema validation en outputs, human-in-the-loop en umbrales configurables, auditoría completa por documento y reproducibilidad para cumplimiento.
⚙️ Orquestación multi-agente
Contratos explícitos entre agentes, memoria compartida versionada, observabilidad cross-agent y circuit breakers para evitar cascadas de error.
💸 Reducción de costos en agentes existentes
Auditoría de tu harness actual, routing a modelos más baratos para pasos simples, caching inteligente de llamadas y budget ceilings por caso de uso. Ahorros de 30-60% sin perder calidad.
Impacto
Antes y después del harness
| Métrica | Sin Harness | Con Harness | Mejora típica |
|---|---|---|---|
| Tasa de éxito en tareas complejas | 40-55% | 85-95% | +40pp |
| Costo por tarea | Variable / fuga | Acotado | -30 a -60% |
| Tiempo para detectar regresión | Días / semanas | Minutos | -99% |
| Incidentes de seguridad | Reactivo | Preventivo | Defense-in-depth |
| Trazabilidad por decisión | Limitada | Completa | 100% |
FAQ
Preguntas Frecuentes
¿Cuál es la diferencia entre un framework (LangChain, LlamaIndex) y un harness?
Un framework te da las primitivas (tool calling, memoria, orquestación). El harness es el sistema completo de producción que rodea al agente: evals, observabilidad, cost control, guardrails, recuperación de errores.
¿Necesitamos Harness Engineering si solo tenemos un chatbot simple?
Probablemente no. Un Q&A básico sin tool use no lo requiere. Pero en el momento en que tu agente llama APIs externas, ejecuta workflows multi-paso u opera sin revisión humana de cada salida, necesitas al menos verificación, observabilidad y cost controls.
¿Se puede aplicar a agentes que ya tenemos desplegados?
Sí, y es uno de nuestros casos más comunes. Empezamos con una auditoría del harness actual (2 semanas), identificamos los gaps más críticos y los cerramos de forma incremental sin interrumpir operación.
¿Qué herramientas usan?
Langfuse para observabilidad y evals, Pydantic/Zod para schema validation, Docker para sandboxes, Ollama/LiteLLM para routing multi-modelo, ChromaDB para RAG, y frameworks como LangGraph o el Claude Agent SDK cuando encajan.
¿Cuánto tiempo toma?
Auditoría: 2 semanas. Harness mínimo viable (evals + observabilidad + guardrails básicos): 4-6 semanas. Harness maduro con memoria entre sesiones, defense-in-depth y automation de regresión: 10-14 semanas.
¿Cómo se integra con los otros servicios de IA de SISCON?
El Harness Engineering es la capa transversal: vuelve productivos a los Agentes de IA, instrumenta la Automatización Inteligente y mide la calidad de los modelos de Analítica Predictiva.