DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Har någon provat RL att skriva om uppmaningar för resonemangsmodeller för att ytterligare förbättra resultaten? Jag antar det, det känns ganska självklart, men om inte så vill jag testa. Om du känner till något befintligt arbete här, pls lmk så jag inte göra om något som folk redan har gjort!

Med detta menar jag: - Ta en redan tränad, frusen resonemangsmodell (t.ex. o4-mini via API) - Lägg till en mindre LLM som tar in en uppmaning och skriver om den för att förbättra hur den frysta modellen presterar - Uppdatera den mindre LLM: s vikter, håll den större LLM fryst Förhoppningen är att den lilla LLM skulle lära sig att "styra" CoT i den frysta större modellen bättre än en människa kunde, vilket ökar prestandan.

@corbtt påminde mig om detta arbete av @brendanh0gan... Brendan, hur gick det? Verkar ganska lik vad jag tänker här.

17,61K

Topp

Rankning

Favoriter

Trendande på kedjan

Trendande på X

Senaste toppfinansieringarna

Mest anmärkningsvärda