DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

A încercat cineva RL să rescrie solicitările pentru modelele de raționament pentru a îmbunătăți și mai mult rezultatele? Presupun că da, pare destul de evident, dar dacă nu, vreau să încerc. Dacă știți vreo lucrare existentă aici, vă rog lmk, astfel încât să nu refac ceva ce oamenii au făcut deja!

Prin aceasta, vreau să spun: - Luați un model de raționament deja antrenat, înghețat (adică o4-mini prin API) - Adăugați un LLM mai mic care preia un prompt și îl rescrie pentru a îmbunătăți performanța modelului înghețat - Actualizați greutățile LLM mai mici, păstrați LLM mai mare înghețat Speranța este că micul LLM va învăța să "conducă" CoT al modelului înghețat mai mare mai bine decât ar putea face un om, crescând performanța.

@corbtt mi-a amintit de această lucrare a @brendanh0gan... Brendan, cum a fost? Pare destul de asemănător cu ceea ce mă gândesc aici.

17,6K

Limită superioară

Clasament

Favorite

La modă pe lanț

La modă pe X

Principalele finanțări recente

Cele mai importante