AI ENGINEERING / EVALUACIÓN Y OBSERVABILIDAD

Evaluación y observabilidad

Saber que funciona — y que sigue funcionando: evals, test sets, LLM-as-judge, tracing, regresión, y el monitoreo que detecta una degradación silenciosa antes que un cliente.

Fundamento · 2

Nota de producción
Gotchas de evaluación: cómo una medición te miente
Una eval se supone que es lo único en un sistema de IA en lo que podés confiar — el número que te dice que el prompt mejoró, que el agente no regresionó, que el modelo nuevo es seguro de lanzar. Pero una eval puede mentir: puede medir memorización en vez de capacidad, optimizar un número mientras pierde el objetivo, puntuar con un juez sesgado, o pasar offline y fallar en vivo. Diez gotchas que hacen que una medición parezca prueba cuando no lo es, cada uno con la pregunta a contestar primero y el costo de confiar en el número equivocado.
Marco de decisión
Style Guide de evaluación: la vara que un cambio pasa antes de salir
Las reglas con opinión que Cleon aplica a cada evaluación — la primera decisión (qué medir y dónde), offline versus online, cómo calificar (determinista, LLM-as-judge o humano), y la compuerta 'eval en cada cambio' que invoca cada otro Style Guide de este catálogo. El documento de disciplina que convierte los gotchas de evaluación en una checklist y el principio 3 en práctica: si no podés evaluarlo, no podés sacarlo — y una medición que no podés defender es peor que ninguna, porque actuás sobre ella. La página que le da a 'eval en cada cambio' su hogar, y compone Agentforce Testing Center, las herramientas de eval de Anthropic y LangSmith según dónde corre el sistema en lugar de elegir bando.

Referencia · 5

Cómo hacerlo · 1

Cómo hacerlo
Debuggear evals: cuando el número miente, y cómo confirmarlo
El eval dio verde y producción está peor. O el judge puntúa alto y tus revisores no coinciden. O un upgrade de model que no podías ver hundió la calidad. Un eval engañoso es peor que no tener eval — es un tilde verde en el que confiaste. El playbook por síntoma para tres formas en que un eval miente: pasa offline pero producción está peor (distribution shift, un set viejo, leakage que infla el puntaje), el LLM-judge no coincide con humanos (un rubric vago, un judge sin calibrar, un sesgo de posición/verbosidad/auto-preferencia), y un upgrade de model-o-prompt regresionó la calidad en silencio sin gate que lo cace. Cada una con el síntoma, qué está realmente mal, cómo confirmarlo, y el arreglo. El hilo: cada una es más barata de debuggear cuando ya tenías el eval set y los traces — debuggear un eval es sobre todo 'tenías la medición antes de necesitarla.'

Evaluación y observabilidad

Fundamento · 2

Gotchas de evaluación: cómo una medición te miente

Style Guide de evaluación: la vara que un cambio pasa antes de salir

Referencia · 5

¿Qué es evaluación? Medir si el sistema funciona, en vez de suponerlo

Eval datasets y métricas: el test set es el spec del producto

LLM-as-judge: calificar output que no tiene una sola respuesta correcta

Testing y observabilidad de Agentforce: evaluar al agente donde vive

Tracing y monitoreo: cazar el degrade que un eval set no puede ver

Cómo hacerlo · 1

Debuggear evals: cuando el número miente, y cómo confirmarlo