I LLM vengono tipicamente valutati con metriche automatiche su set di test standard, ma le metriche e i set di test vengono sviluppati in modo indipendente. Questo solleva una domanda cruciale: Possiamo progettare metriche automatiche specificamente per eccellere nei set di test che priorizziamo? Risposta: Sì!
11,34K