Hat jemand versucht, RL zu nutzen, um Eingabeaufforderungen für Denkmodelle umzuschreiben, um die Ausgaben weiter zu verbessern? Ich nehme an, das wurde schon gemacht, es scheint ziemlich offensichtlich zu sein, aber falls nicht, möchte ich es ausprobieren. Wenn ihr von bestehenden Arbeiten dazu wisst, lasst es mich bitte wissen, damit ich nicht etwas wiederhole, was andere bereits gemacht haben!
Damit meine ich: - Nimm ein bereits trainiertes, eingefrorenes Denkmodell (d.h. o4-mini über API) - Füge ein kleineres LLM hinzu, das einen Prompt entgegennimmt und ihn umschreibt, um die Leistung des eingefrorenen Modells zu verbessern - Aktualisiere die Gewichte des kleineren LLM, während das größere LLM eingefroren bleibt Die Hoffnung ist, dass das kleine LLM lernen würde, die CoT des eingefrorenen größeren Modells besser zu "steuern" als ein Mensch, was die Leistung erhöht.
@corbtt hat mich an diese Arbeit von @brendanh0gan erinnert... Brendan, wie ist es gelaufen? Scheint ziemlich ähnlich zu dem zu sein, was ich hier denke.
Brendan Hogan
Brendan Hogan3. Juli, 08:26
Große Modelle sind großartige Agenten, aber oft zu groß, geschlossen oder empfindlich, um sie feinabzustimmen. Idee: Ein kleines Modell trainieren, um Kontext für ein eingefrorenes großes Modell zu erstellen, die Ausgaben des großen Modells bewerten und das als Belohnung für das kleine Modell verwenden. Gruppe für Kontextanpassung. Mehr dazu unten.
17,5K