Cea mai bună presupunere a mea: Rubrici + LLM Judge - Atomizați fiecare punct din dovada adevărului de bază și verificați cu rezultatul modelului Presupunerea mea despre cum au făcut acest lucru scalabil - deoarece înainte nu era, oamenii trebuiau să le creeze meticulos, dacă s-au antrenat sau au făcut ceva pentru a face rubrici foarte bune generate pentru fiecare problemă specifică sau răspunsul ei.
Alexander Wei
Alexander Wei19 iul., 15:50
5/N Pe lângă rezultatul în sine, sunt încântat de abordarea noastră: atingem acest nivel de capacitate nu printr-o metodologie îngustă, specifică sarcinii, ci prin deschiderea de noi drumuri în învățarea prin întărire de uz general și scalarea calculului în timpul testelor.
.@polynoamial @alexwei_ clipesc de două ori dacă am dreptate și de 3 ori dacă greșesc - înainte ca blind-urile să fie conduse de blind-ul xD
22,31K