Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Qualcuno ha provato RL per riscrivere i prompt per i modelli di ragionamento per migliorare ulteriormente i risultati?
Presumo di sì, sembra abbastanza ovvio, ma se non l'hanno fatto voglio provarci.
Se conosci qualche lavoro esistente in merito, fammi sapere così non ripeto qualcosa che è già stato fatto!
Con questo intendo:
- Prendere un modello di ragionamento già addestrato e congelato (cioè o4-mini tramite API)
- Aggiungere un LLM più piccolo che riceve un prompt e lo riscrive per migliorare le prestazioni del modello congelato
- Aggiornare i pesi del LLM più piccolo, mantenendo congelato il LLM più grande
La speranza è che il piccolo LLM impari a 'guidare' il CoT del modello più grande congelato meglio di quanto possa fare un umano, aumentando le prestazioni.
@corbtt mi ha ricordato questo lavoro di @brendanh0gan...
Brendan, come è andata? Sembra piuttosto simile a quello che sto pensando qui.

3 lug, 08:26
i grandi modelli sono ottimi agenti ma spesso troppo grandi, chiusi o delicati per essere affinati
idea: addestrare un piccolo modello per creare contesto per un grande modello congelato, valutare le uscite del grande modello, usare questo come ricompensa per il piccolo
grpo per l'affinamento del contesto. maggiori dettagli di seguito

17,49K
Principali
Ranking
Preferiti