Los LLM generalmente se evalúan con métricas automáticas en conjuntos de pruebas estándar, pero las métricas + conjuntos de pruebas se desarrollan de forma independiente. Esto plantea una pregunta crucial: ¿Podemos diseñar métricas automáticas específicamente para sobresalir en los conjuntos de pruebas que priorizamos? Respuesta: ¡Sí!
11.34K