LLM:er utvärderas vanligtvis med automatiska mätvärden på standardtestuppsättningar, men mätvärden + testuppsättningar utvecklas oberoende. Detta väcker en viktig fråga: Kan vi utforma automatiska mätvärden specifikt för att utmärka oss på de testuppsättningar vi prioriterar? Svar: Ja!
11,35K