Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Czy ktoś próbował używać RL do przekształcania promptów dla modeli rozumowania, aby poprawić wyniki? Zakładam, że tak, wydaje się to dość oczywiste, ale jeśli nie, chcę to wypróbować. Jeśli znasz jakieś istniejące prace w tej dziedzinie, daj mi znać, żebym nie powtarzał czegoś, co już zostało zrobione!

Przez to mam na myśli: - Wziąć już wytrenowany, zamrożony model rozumowania (tj. o4-mini przez API) - Dodać mniejszy LLM, który przyjmuje prompt i przekształca go, aby poprawić działanie zamrożonego modelu - Zaktualizować wagi mniejszego LLM, pozostawiając większy LLM zamrożony Nadzieja jest taka, że mały LLM nauczy się lepiej 'sterować' CoT zamrożonego większego modelu niż człowiek, zwiększając wydajność.

@corbtt przypomniał mi o tej pracy autorstwa @brendanh0gan... Brendan, jak poszło? Wydaje się to dość podobne do tego, co mam na myśli tutaj.

17,5K

Najlepsze

Ranking

Ulubione

Trendy onchain

Trendy na X

Niedawne największe finansowanie

Najbardziej godne uwagi