Czy ktoś próbował używać RL do przekształcania promptów dla modeli rozumowania, aby poprawić wyniki? Zakładam, że tak, wydaje się to dość oczywiste, ale jeśli nie, chcę to wypróbować. Jeśli znasz jakieś istniejące prace w tej dziedzinie, daj mi znać, żebym nie powtarzał czegoś, co już zostało zrobione!
Przez to mam na myśli: - Wziąć już wytrenowany, zamrożony model rozumowania (tj. o4-mini przez API) - Dodać mniejszy LLM, który przyjmuje prompt i przekształca go, aby poprawić działanie zamrożonego modelu - Zaktualizować wagi mniejszego LLM, pozostawiając większy LLM zamrożony Nadzieja jest taka, że mały LLM nauczy się lepiej 'sterować' CoT zamrożonego większego modelu niż człowiek, zwiększając wydajność.
@corbtt przypomniał mi o tej pracy autorstwa @brendanh0gan... Brendan, jak poszło? Wydaje się to dość podobne do tego, co mam na myśli tutaj.
Brendan Hogan
Brendan Hogan3 lip, 08:26
big models are great agents but often too big, closed, or delicate to fine-tune idea: train a small model to craft context for a frozen big model, score the big model's outputs, use that as reward for the small one grpo for context tuning. more below
17,5K