Modelele mari sunt agenți grozavi, dar adesea prea mari, închiși sau delicati pentru a fi reglați fin Idee: Antrenează un model mic pentru a crea context pentru un model mare înghețat, notează rezultatele modelului mare, folosește-l ca recompensă pentru cel mic GRPO pentru reglarea contextului. Mai multe mai jos
11,62K