Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Alguém já tentou usar RL para reescrever prompts para modelos de raciocínio a fim de melhorar ainda mais os resultados?
Estou a assumir que sim, parece bastante óbvio, mas se não, quero tentar.
Se souber de algum trabalho existente aqui, por favor avise-me para que eu não faça algo que já foi feito!
Com isto, quero dizer:
- Pegue num modelo de raciocínio já treinado e congelado (ou seja, o o4-mini via API)
- Adicione um LLM menor que recebe um prompt e o reescreve para melhorar o desempenho do modelo congelado
- Atualize os pesos do LLM menor, mantendo o LLM maior congelado
A esperança é que o LLM pequeno aprenda a 'guiar' o CoT do modelo maior congelado melhor do que um humano poderia, aumentando o desempenho.
@corbtt lembrou-me deste trabalho de @brendanh0gan...
Brendan, como correu? Parece bastante semelhante ao que estou a pensar aqui.

3/07, 08:26
big models are great agents but often too big, closed, or delicate to fine-tune
idea: train a small model to craft context for a frozen big model, score the big model's outputs, use that as reward for the small one
grpo for context tuning. more below

17,51K
Top
Classificação
Favoritos