Har någon provat RL att skriva om uppmaningar för resonemangsmodeller för att ytterligare förbättra resultaten? Jag antar det, det känns ganska självklart, men om inte så vill jag testa. Om du känner till något befintligt arbete här, pls lmk så jag inte göra om något som folk redan har gjort!
Med detta menar jag: - Ta en redan tränad, frusen resonemangsmodell (t.ex. o4-mini via API) - Lägg till en mindre LLM som tar in en uppmaning och skriver om den för att förbättra hur den frysta modellen presterar - Uppdatera den mindre LLM: s vikter, håll den större LLM fryst Förhoppningen är att den lilla LLM skulle lära sig att "styra" CoT i den frysta större modellen bättre än en människa kunde, vilket ökar prestandan.
@corbtt påminde mig om detta arbete av @brendanh0gan... Brendan, hur gick det? Verkar ganska lik vad jag tänker här.
Brendan Hogan
Brendan Hogan3 juli 08:26
Stora modeller är bra agenter men ofta för stora, slutna eller känsliga för att finjusteras Idé: Träna en liten modell för att skapa kontext för en fryst stor modell, poängsätta den stora modellens utdata, använda den som belöning för den lilla GRPO för kontextjustering. Mer nedan
17,61K