LLMs werden typischerweise mit automatischen Metriken auf standardisierten Testsets bewertet, aber Metriken und Testsets werden unabhängig entwickelt. Dies wirft eine entscheidende Frage auf: Können wir automatische Metriken entwerfen, die speziell darauf ausgelegt sind, in den Testsets, die wir priorisieren, hervorragend abzuschneiden? Antwort: Ja!
11,34K