Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Heeft iemand geprobeerd RL te gebruiken om prompts voor redeneermodellen te herschrijven om de output verder te verbeteren?
Ik neem aan van wel, het lijkt me vrij voor de hand liggend, maar als dat niet zo is, wil ik het graag proberen.
Als je weet van bestaand werk hierover, laat het me alsjeblieft weten zodat ik niet iets opnieuw doe wat anderen al gedaan hebben!
Hiermee bedoel ik:
- Neem een al getraind, bevroren redeneermodel (d.w.z. o4-mini via API)
- Voeg een kleinere LLM toe die een prompt ontvangt en deze herschrijft om de prestaties van het bevroren model te verbeteren
- Werk de gewichten van de kleinere LLM bij, houd de grotere LLM bevroren
De hoop is dat de kleine LLM zou leren om de CoT van het bevroren grotere model beter te 'sturen' dan een mens zou kunnen, wat de prestaties zou verhogen.
@corbtt herinnerde me aan dit werk van @brendanh0gan...
Brendan, hoe is het gegaan? Lijkt behoorlijk op wat ik hier denk.

3 jul, 08:26
big models are great agents but often too big, closed, or delicate to fine-tune
idea: train a small model to craft context for a frozen big model, score the big model's outputs, use that as reward for the small one
grpo for context tuning. more below

17,51K
Boven
Positie
Favorieten