Heeft iemand geprobeerd RL te gebruiken om prompts voor redeneermodellen te herschrijven om de output verder te verbeteren? Ik neem aan van wel, het lijkt me vrij voor de hand liggend, maar als dat niet zo is, wil ik het graag proberen. Als je weet van bestaand werk hierover, laat het me alsjeblieft weten zodat ik niet iets opnieuw doe wat anderen al gedaan hebben!
Hiermee bedoel ik: - Neem een al getraind, bevroren redeneermodel (d.w.z. o4-mini via API) - Voeg een kleinere LLM toe die een prompt ontvangt en deze herschrijft om de prestaties van het bevroren model te verbeteren - Werk de gewichten van de kleinere LLM bij, houd de grotere LLM bevroren De hoop is dat de kleine LLM zou leren om de CoT van het bevroren grotere model beter te 'sturen' dan een mens zou kunnen, wat de prestaties zou verhogen.
@corbtt herinnerde me aan dit werk van @brendanh0gan... Brendan, hoe is het gegaan? Lijkt behoorlijk op wat ik hier denk.
Brendan Hogan
Brendan Hogan3 jul, 08:26
big models are great agents but often too big, closed, or delicate to fine-tune idea: train a small model to craft context for a frozen big model, score the big model's outputs, use that as reward for the small one grpo for context tuning. more below
17,51K