Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Har någon provat RL att skriva om uppmaningar för resonemangsmodeller för att ytterligare förbättra resultaten?
Jag antar det, det känns ganska självklart, men om inte så vill jag testa.
Om du känner till något befintligt arbete här, pls lmk så jag inte göra om något som folk redan har gjort!
Med detta menar jag:
- Ta en redan tränad, frusen resonemangsmodell (t.ex. o4-mini via API)
- Lägg till en mindre LLM som tar in en uppmaning och skriver om den för att förbättra hur den frysta modellen presterar
- Uppdatera den mindre LLM: s vikter, håll den större LLM fryst
Förhoppningen är att den lilla LLM skulle lära sig att "styra" CoT i den frysta större modellen bättre än en människa kunde, vilket ökar prestandan.
@corbtt påminde mig om detta arbete av @brendanh0gan...
Brendan, hur gick det? Verkar ganska lik vad jag tänker här.

3 juli 08:26
Stora modeller är bra agenter men ofta för stora, slutna eller känsliga för att finjusteras
Idé: Träna en liten modell för att skapa kontext för en fryst stor modell, poängsätta den stora modellens utdata, använda den som belöning för den lilla
GRPO för kontextjustering. Mer nedan

17,61K
Topp
Rankning
Favoriter