Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
A încercat cineva RL să rescrie solicitările pentru modelele de raționament pentru a îmbunătăți și mai mult rezultatele?
Presupun că da, pare destul de evident, dar dacă nu, vreau să încerc.
Dacă știți vreo lucrare existentă aici, vă rog lmk, astfel încât să nu refac ceva ce oamenii au făcut deja!
Prin aceasta, vreau să spun:
- Luați un model de raționament deja antrenat, înghețat (adică o4-mini prin API)
- Adăugați un LLM mai mic care preia un prompt și îl rescrie pentru a îmbunătăți performanța modelului înghețat
- Actualizați greutățile LLM mai mici, păstrați LLM mai mare înghețat
Speranța este că micul LLM va învăța să "conducă" CoT al modelului înghețat mai mare mai bine decât ar putea face un om, crescând performanța.
@corbtt mi-a amintit de această lucrare a @brendanh0gan...
Brendan, cum a fost? Pare destul de asemănător cu ceea ce mă gândesc aici.

3 iul., 08:26
Modelele mari sunt agenți grozavi, dar adesea prea mari, închiși sau delicati pentru a fi reglați fin
Idee: Antrenează un model mic pentru a crea context pentru un model mare înghețat, notează rezultatele modelului mare, folosește-l ca recompensă pentru cel mic
GRPO pentru reglarea contextului. Mai multe mai jos

17,6K
Limită superioară
Clasament
Favorite