Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Czy ktoś próbował używać RL do przekształcania promptów dla modeli rozumowania, aby poprawić wyniki?
Zakładam, że tak, wydaje się to dość oczywiste, ale jeśli nie, chcę to wypróbować.
Jeśli znasz jakieś istniejące prace w tej dziedzinie, daj mi znać, żebym nie powtarzał czegoś, co już zostało zrobione!
Przez to mam na myśli:
- Wziąć już wytrenowany, zamrożony model rozumowania (tj. o4-mini przez API)
- Dodać mniejszy LLM, który przyjmuje prompt i przekształca go, aby poprawić działanie zamrożonego modelu
- Zaktualizować wagi mniejszego LLM, pozostawiając większy LLM zamrożony
Nadzieja jest taka, że mały LLM nauczy się lepiej 'sterować' CoT zamrożonego większego modelu niż człowiek, zwiększając wydajność.
@corbtt przypomniał mi o tej pracy autorstwa @brendanh0gan...
Brendan, jak poszło? Wydaje się to dość podobne do tego, co mam na myśli tutaj.

3 lip, 08:26
big models are great agents but often too big, closed, or delicate to fine-tune
idea: train a small model to craft context for a frozen big model, score the big model's outputs, use that as reward for the small one
grpo for context tuning. more below

17,5K
Najlepsze
Ranking
Ulubione