Los LLMs se evalúan típicamente con métricas automáticas en conjuntos de pruebas estándar, pero las métricas y los conjuntos de pruebas se desarrollan de manera independiente. Esto plantea una pregunta crucial: ¿Podemos diseñar métricas automáticas específicamente para sobresalir en los conjuntos de pruebas que priorizamos? Respuesta: ¡Sí!
11,34K