DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Hat jemand versucht, RL zu nutzen, um Eingabeaufforderungen für Denkmodelle umzuschreiben, um die Ausgaben weiter zu verbessern? Ich nehme an, das wurde schon gemacht, es scheint ziemlich offensichtlich zu sein, aber falls nicht, möchte ich es ausprobieren. Wenn ihr von bestehenden Arbeiten dazu wisst, lasst es mich bitte wissen, damit ich nicht etwas wiederhole, was andere bereits gemacht haben!

Damit meine ich: - Nimm ein bereits trainiertes, eingefrorenes Denkmodell (d.h. o4-mini über API) - Füge ein kleineres LLM hinzu, das einen Prompt entgegennimmt und ihn umschreibt, um die Leistung des eingefrorenen Modells zu verbessern - Aktualisiere die Gewichte des kleineren LLM, während das größere LLM eingefroren bleibt Die Hoffnung ist, dass das kleine LLM lernen würde, die CoT des eingefrorenen größeren Modells besser zu "steuern" als ein Mensch, was die Leistung erhöht.

@corbtt hat mich an diese Arbeit von @brendanh0gan erinnert... Brendan, wie ist es gelaufen? Scheint ziemlich ähnlich zu dem zu sein, was ich hier denke.

17,5K

Top

Ranking

Favoriten

Onchain-Trends

Im Trend auf X

Aktuelle Top-Finanzierungen

Am bemerkenswertesten