Nuevo

Harness Engineering

IA confiable en producción, no solo en demos

El 73% de los proyectos de IA no llegan a producción. La razón nunca es el modelo — es el "harness": la infraestructura que rodea al agente. Diseñamos, instrumentamos y operamos el andamiaje que vuelve confiables a tus agentes de IA.

El Concepto

Agente = Modelo + Harness

Cuando un agente de IA falla en producción, casi nunca es culpa del modelo. Es culpa del harness: el conjunto de tools, context management, memoria, evaluaciones, guardrails y observabilidad que rodea al modelo.

Anthropic y OpenAI popularizaron el término para describir una disciplina nueva: dejar de optimizar prompts aislados y empezar a diseñar el sistema completo que hace que un agente funcione de forma consistente, observable y segura a lo largo del tiempo.

En SISCON aplicamos esta disciplina a los agentes que construimos — y también a agentes que otros equipos ya tienen desplegados y necesitan "industrializar".

Servicios

Qué construimos en tu harness

Cuatro áreas de trabajo que pueden ir juntas o por separado según dónde estés en tu journey de IA.

🏗️ Scaffolding y Diseño de Agentes

Definimos la arquitectura previa al primer prompt: system prompts versionados, tool schemas bien tipados, subagentes con responsabilidades acotadas y un AGENTS.md que documenta reglas arquitectónicas que el agente respeta por defecto.

🧠 Context Engineering y Memoria

Compactación inteligente de contexto para sesiones largas, RAG sobre tus fuentes corporativas con ChromaDB, archivos de progreso para coordinar múltiples contextos, y patrones de context isolation.

📈 Evaluación y Observabilidad

Pipelines de evals automatizados (golden sets, LLM-as-judge, regression tests), trazabilidad completa con Langfuse, dashboards de calidad por caso de uso y alertas cuando una nueva versión del modelo degrada el desempeño.

🛡️ Safety, Guardrails y Cost Control

Defense-in-depth con capas independientes (validación de inputs, filtros de outputs, sandboxes para tool use peligroso, human-in-the-loop en pasos críticos), presupuestos por tarea y circuit breakers ante comportamiento anómalo.

🔗 Servicios relacionados: El Harness Engineering es la capa operativa que hace productivos a los Agentes de IA y a la Automatización Inteligente. Si ya tienes agentes en piloto pero no logras que lleguen a producción con SLA, este es el servicio que necesitas. Si todavía no tienes agentes, empieza por Consultoría en Estrategia de IA.

Metodología

Guides + Sensors: el modelo feedforward/feedback

Adoptamos el framework de harness engineering que Thoughtworks, Anthropic y OpenAI han publicado: cada comportamiento del agente se controla con una guía (antes de actuar) y un sensor (después de actuar).

🎯 Guides (feedforward)

Anticipan el comportamiento del agente y lo guían antes de que actúe. Aumentan la probabilidad de acierto al primer intento.

Ejemplos: System prompts estructurados, AGENTS.md con reglas del dominio, tool descriptions explícitas, ejemplos de invocación (few-shot), plantillas de planificación obligatorias.

🔎 Sensors (feedback)

Observan después de que el agente actuó y le permiten auto-corregirse.

Ejemplos: Linters custom, validadores de schema en outputs, tests unitarios post-generación, evals LLM-as-judge, revisores que escalan a humano cuando la confianza es baja.

Proceso

Cómo Trabajamos

1

Auditamos

Mapeo del harness actual: qué guides y sensors existen, qué falta.

2

Diseñamos

Propuesta de scaffolding, evals, observabilidad y guardrails.

3

Instrumentamos

Implementación iterativa con Langfuse, pipelines de evals y cost controls.

4

Operamos

Monitoreo continuo, tuning de guides/sensors y respuesta a regresiones.

Casos de Uso

Dónde el harness hace la diferencia

Escenarios típicos donde nuestros clientes pasan de "tenemos un demo" a "tenemos un producto".

🔧 Agente de código en producción

Harness con subagents especializados (plan/code/review/test), sandboxes para ejecución segura y regresión automática en cada cambio. Resultado típico: -60% errores en PRs, -40% costo por tarea.

🎫 Soporte con SLA garantizado

Context engineering sobre KB interna, evals nocturnos contra golden set, fallback determinístico cuando la confianza es baja y métricas de deflection publicadas.

🔬 Research agents de larga ejecución

Archivos de progreso entre sesiones, compactación con preservación de decisiones clave, trazabilidad completa de fuentes y verificación de citas.

📑 Procesamiento documental crítico

Schema validation en outputs, human-in-the-loop en umbrales configurables, auditoría completa por documento y reproducibilidad para cumplimiento.

⚙️ Orquestación multi-agente

Contratos explícitos entre agentes, memoria compartida versionada, observabilidad cross-agent y circuit breakers para evitar cascadas de error.

💸 Reducción de costos en agentes existentes

Auditoría de tu harness actual, routing a modelos más baratos para pasos simples, caching inteligente de llamadas y budget ceilings por caso de uso. Ahorros de 30-60% sin perder calidad.

Impacto

Antes y después del harness

MétricaSin HarnessCon HarnessMejora típica
Tasa de éxito en tareas complejas40-55%85-95%+40pp
Costo por tareaVariable / fugaAcotado-30 a -60%
Tiempo para detectar regresiónDías / semanasMinutos-99%
Incidentes de seguridadReactivoPreventivoDefense-in-depth
Trazabilidad por decisiónLimitadaCompleta100%

FAQ

Preguntas Frecuentes

¿Cuál es la diferencia entre un framework (LangChain, LlamaIndex) y un harness?

Un framework te da las primitivas (tool calling, memoria, orquestación). El harness es el sistema completo de producción que rodea al agente: evals, observabilidad, cost control, guardrails, recuperación de errores.

¿Necesitamos Harness Engineering si solo tenemos un chatbot simple?

Probablemente no. Un Q&A básico sin tool use no lo requiere. Pero en el momento en que tu agente llama APIs externas, ejecuta workflows multi-paso u opera sin revisión humana de cada salida, necesitas al menos verificación, observabilidad y cost controls.

¿Se puede aplicar a agentes que ya tenemos desplegados?

Sí, y es uno de nuestros casos más comunes. Empezamos con una auditoría del harness actual (2 semanas), identificamos los gaps más críticos y los cerramos de forma incremental sin interrumpir operación.

¿Qué herramientas usan?

Langfuse para observabilidad y evals, Pydantic/Zod para schema validation, Docker para sandboxes, Ollama/LiteLLM para routing multi-modelo, ChromaDB para RAG, y frameworks como LangGraph o el Claude Agent SDK cuando encajan.

¿Cuánto tiempo toma?

Auditoría: 2 semanas. Harness mínimo viable (evals + observabilidad + guardrails básicos): 4-6 semanas. Harness maduro con memoria entre sesiones, defense-in-depth y automation de regresión: 10-14 semanas.

¿Cómo se integra con los otros servicios de IA de SISCON?

El Harness Engineering es la capa transversal: vuelve productivos a los Agentes de IA, instrumenta la Automatización Inteligente y mide la calidad de los modelos de Analítica Predictiva.

¿Listo?
¿Tienes agentes en piloto que no llegan a producción?
Empezamos con una auditoría de 2 semanas. Identificamos los gaps críticos de tu harness actual.