AI ENGINEERING / EVALUACIÓN Y OBSERVABILIDAD
Evaluación y observabilidad
Saber que funciona — y que sigue funcionando: evals, test sets, LLM-as-judge, tracing, regresión, y el monitoreo que detecta una degradación silenciosa antes que un cliente.
Fundamento · 2
Nota de producción
Gotchas de evaluación: cómo una medición te miente
Una eval se supone que es lo único en un sistema de IA en lo que podés confiar — el número que te dice que el prompt mejoró, que el agente no regresionó, que el modelo nuevo es seguro de lanzar. Pero una eval puede mentir: puede medir memorización en vez de capacidad, optimizar un número mientras pierde el objetivo, puntuar con un juez sesgado, o pasar offline y fallar en vivo. Diez gotchas que hacen que una medición parezca prueba cuando no lo es, cada uno con la pregunta a contestar primero y el costo de confiar en el número equivocado.
Marco de decisión
Style Guide de evaluación: la vara que un cambio pasa antes de salir
Las reglas con opinión que Cleon aplica a cada evaluación — la primera decisión (qué medir y dónde), offline versus online, cómo calificar (determinista, LLM-as-judge o humano), y la compuerta 'eval en cada cambio' que invoca cada otro Style Guide de este catálogo. El documento de disciplina que convierte los gotchas de evaluación en una checklist y el principio 3 en práctica: si no podés evaluarlo, no podés sacarlo — y una medición que no podés defender es peor que ninguna, porque actuás sobre ella. La página que le da a 'eval en cada cambio' su hogar, y compone Agentforce Testing Center, las herramientas de eval de Anthropic y LangSmith según dónde corre el sistema en lugar de elegir bando.
Referencia · 5
Referencia
¿Qué es evaluación? Medir si el sistema funciona, en vez de suponerlo
La evaluación es la disciplina de medir si un sistema de IA hace su trabajo — reemplazar 'se veía bien en tres intentos' por un número que podés puntuar, comparar y defender. El loop de eval: definir criterios de éxito, construir un eval set, calificar, iterar. Evaluación offline antes de salir versus evaluación online sobre tráfico real. El vocabulario que usa el resto de esta subcategoría — eval set, golden dataset, ground truth, metric, judge, baseline, regresión. Y las tres formas de calificar — metric determinístico, LLM-as-judge, humano — con cuándo encaja cada una. Principio 3: si no lo podés evaluar, no lo podés shipear.
Referencia
Eval datasets y métricas: el test set es el spec del producto
Una eval son dos mitades: un dataset de casos y una forma de calificar la salida en cada uno. Esta página construye las dos. El dataset espeja la distribución real de la tarea e incluye a propósito los edge cases, porque los casos que dejás afuera son los que se rompen en producción — y la guía de Anthropic es directa sobre el tamaño: más preguntas con calificación automática de señal un poco más baja le gana a un puñado calificadas a mano. La mitad de calificación es un método por caso — exact match, code-graded, multiple-choice, similarity, o LLM-graded — cada uno con para qué sirve y dónde te muerde. El ground truth es de dónde sale la respuesta correcta y cuánto cuesta; versionar el set es lo que mantiene comparables dos corridas. El mismo set después alimenta la Evaluation tool de la Console, un dataset de LangSmith, y la red de regresión de todo lo ya shipeado.
Referencia
LLM-as-judge: calificar output que no tiene una sola respuesta correcta
El exact match califica un label de sentiment en una línea. No puede calificar una respuesta de soporte, un resumen, ni una respuesta conversacional — output abierto donde dos redacciones distintas son ambas correctas y no hay un string dorado contra el cual comparar. El LLM-as-judge es la movida ahí: un segundo modelo lee el output contra un rubric y devuelve un score. La mecánica — el rubric es el criterio de scoring, le pasás input más output más una reference opcional, y le pedís al juez que razone antes de calificar (Anthropic — mejora el juicio en tareas complejas). Las formas de feedback: Boolean, Categorical, Continuous. Los sesgos que hacen mentir a un juez ingenuo — posición, verbosidad, auto-preferencia — y las mitigaciones, terminando en la que más importa: calibrar el juez contra labels humanas antes de confiar en él. Y corre de las dos formas — offline sobre un eval set, u online sobre traces de producción en vivo.
Referencia
Testing y observabilidad de Agentforce: evaluar al agente donde vive
La mitad nativa de la plataforma del espinazo de eval: cómo testeás y observás un agente que corre en Agentforce, dentro del modelo de seguridad de Salesforce. Antes de deployar — Testing Center, la UI low-code para correr casos contra el agente; el camino pro-code de Agentforce DX que genera un test spec en YAML con el comando `agent generate test-spec`; y la Testing API para corridas batch programáticas. Las tres cosas que chequea un caso de test — el topic esperado, las actions esperadas, y el outcome esperado como match en lenguaje natural. Después de deployar — Observabilidad de Agentforce: traces de sesión exportados en formato OpenTelemetry (OTLP), almacenados en Data 360, con scores de calidad y flags para topics de bajo rendimiento. El instrumento en plataforma; la capa del modelo y LangSmith son la mitad fuera de plataforma (principio 7).
Referencia
Tracing y monitoreo: cazar el degrade que un eval set no puede ver
Un eval offline está congelado por definición — califica los casos que se te ocurrieron, antes de shippear. Producción manda tráfico que ningún eval set anticipó, y ahí es donde los sistemas se pudren en silencio: un upgrade de modelo, un shift de distribución, un cambio upstream mueve el output y cada test offline sigue pasando. Esta página es la mitad de producción. Tracing: un trace y spans por pedido, logueando inputs, outputs, latencia, costo y tokens, llamadas a tools, contexto recuperado, el score de la métrica y el feedback del usuario — cada uno mostrado como una tabla real con por qué importa. Evaluación online: corré un judge o una métrica sobre traces en vivo para feedback en tiempo real, filtrá qué runs calificar, poné un sampling rate para no calificar cada llamada. Cazar el degrade silencioso: alertá sobre una caída de la métrica, no sobre un crash. Compuesto en dos superficies según dónde corre el sistema — LangSmith online evaluators off-platform, session tracing de Agentforce exportado en OpenTelemetry hacia Data 360 in-platform.