Apakah ada yang mencoba RL untuk menulis ulang prompt untuk model penalaran untuk lebih meningkatkan output? Saya berasumsi begitu, rasanya cukup jelas, tetapi jika tidak saya ingin mencobanya. Jika Anda mengetahui pekerjaan yang ada di sini, tolong lmk jadi saya tidak melakukan kembali sesuatu yang telah dilakukan orang!
Maksud saya: - Ambil model penalaran yang sudah terlatih dan beku (yaitu o4-mini melalui API) - Tambahkan LLM yang lebih kecil yang menerima prompt, dan menulis ulang untuk meningkatkan performa model beku - Perbarui bobot LLM yang lebih kecil, jaga agar LLM yang lebih besar tetap beku Harapannya adalah bahwa LLM kecil akan belajar untuk 'mengarahkan' CoT dari model beku yang lebih besar lebih baik daripada yang bisa dilakukan manusia, meningkatkan kinerja.
@corbtt mengingatkan saya pada karya @brendanh0gan ini... Brendan, bagaimana kelanjutannya? Sepertinya sangat mirip dengan apa yang saya pikirkan di sini.
Brendan Hogan
Brendan Hogan3 Jul, 08.26
big models are great agents but often too big, closed, or delicate to fine-tune idea: train a small model to craft context for a frozen big model, score the big model's outputs, use that as reward for the small one grpo for context tuning. more below
17,47K