Qualcuno ha provato RL per riscrivere i prompt per i modelli di ragionamento per migliorare ulteriormente i risultati? Presumo di sì, sembra abbastanza ovvio, ma se non l'hanno fatto voglio provarci. Se conosci qualche lavoro esistente in merito, fammi sapere così non ripeto qualcosa che è già stato fatto!
Con questo intendo: - Prendere un modello di ragionamento già addestrato e congelato (cioè o4-mini tramite API) - Aggiungere un LLM più piccolo che riceve un prompt e lo riscrive per migliorare le prestazioni del modello congelato - Aggiornare i pesi del LLM più piccolo, mantenendo congelato il LLM più grande La speranza è che il piccolo LLM impari a 'guidare' il CoT del modello più grande congelato meglio di quanto possa fare un umano, aumentando le prestazioni.
@corbtt mi ha ricordato questo lavoro di @brendanh0gan... Brendan, come è andata? Sembra piuttosto simile a quello che sto pensando qui.
Brendan Hogan
Brendan Hogan3 lug, 08:26
i grandi modelli sono ottimi agenti ma spesso troppo grandi, chiusi o delicati per essere affinati idea: addestrare un piccolo modello per creare contesto per un grande modello congelato, valutare le uscite del grande modello, usare questo come ricompensa per il piccolo grpo per l'affinamento del contesto. maggiori dettagli di seguito
17,49K