Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Apakah ada yang mencoba RL untuk menulis ulang prompt untuk model penalaran untuk lebih meningkatkan output?
Saya berasumsi begitu, rasanya cukup jelas, tetapi jika tidak saya ingin mencobanya.
Jika Anda mengetahui pekerjaan yang ada di sini, tolong lmk jadi saya tidak melakukan kembali sesuatu yang telah dilakukan orang!
Maksud saya:
- Ambil model penalaran yang sudah terlatih dan beku (yaitu o4-mini melalui API)
- Tambahkan LLM yang lebih kecil yang menerima prompt, dan menulis ulang untuk meningkatkan performa model beku
- Perbarui bobot LLM yang lebih kecil, jaga agar LLM yang lebih besar tetap beku
Harapannya adalah bahwa LLM kecil akan belajar untuk 'mengarahkan' CoT dari model beku yang lebih besar lebih baik daripada yang bisa dilakukan manusia, meningkatkan kinerja.
@corbtt mengingatkan saya pada karya @brendanh0gan ini...
Brendan, bagaimana kelanjutannya? Sepertinya sangat mirip dengan apa yang saya pikirkan di sini.

3 Jul, 08.26
big models are great agents but often too big, closed, or delicate to fine-tune
idea: train a small model to craft context for a frozen big model, score the big model's outputs, use that as reward for the small one
grpo for context tuning. more below

17,47K
Teratas
Peringkat
Favorit