大型語言模型(LLMs)通常在標準測試集上使用自動指標進行評估,但指標和測試集是獨立開發的。這引發了一個關鍵問題:我們能否設計自動指標,專門在我們優先考慮的測試集上表現出色?答案是:可以!
11.33K