DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Heeft iemand geprobeerd RL te gebruiken om prompts voor redeneermodellen te herschrijven om de output verder te verbeteren? Ik neem aan van wel, het lijkt me vrij voor de hand liggend, maar als dat niet zo is, wil ik het graag proberen. Als je weet van bestaand werk hierover, laat het me alsjeblieft weten zodat ik niet iets opnieuw doe wat anderen al gedaan hebben!

Hiermee bedoel ik: - Neem een al getraind, bevroren redeneermodel (d.w.z. o4-mini via API) - Voeg een kleinere LLM toe die een prompt ontvangt en deze herschrijft om de prestaties van het bevroren model te verbeteren - Werk de gewichten van de kleinere LLM bij, houd de grotere LLM bevroren De hoop is dat de kleine LLM zou leren om de CoT van het bevroren grotere model beter te 'sturen' dan een mens zou kunnen, wat de prestaties zou verhogen.

@corbtt herinnerde me aan dit werk van @brendanh0gan... Brendan, hoe is het gegaan? Lijkt behoorlijk op wat ik hier denk.

17,51K

Boven

Positie

Favorieten

Populair op onchain

Populair op X

Recente topfinanciering

Belangrijkste