Alguém já tentou usar RL para reescrever prompts para modelos de raciocínio a fim de melhorar ainda mais os resultados? Estou a assumir que sim, parece bastante óbvio, mas se não, quero tentar. Se souber de algum trabalho existente aqui, por favor avise-me para que eu não faça algo que já foi feito!
Com isto, quero dizer: - Pegue num modelo de raciocínio já treinado e congelado (ou seja, o o4-mini via API) - Adicione um LLM menor que recebe um prompt e o reescreve para melhorar o desempenho do modelo congelado - Atualize os pesos do LLM menor, mantendo o LLM maior congelado A esperança é que o LLM pequeno aprenda a 'guiar' o CoT do modelo maior congelado melhor do que um humano poderia, aumentando o desempenho.
@corbtt lembrou-me deste trabalho de @brendanh0gan... Brendan, como correu? Parece bastante semelhante ao que estou a pensar aqui.
Brendan Hogan
Brendan Hogan3/07, 08:26
big models are great agents but often too big, closed, or delicate to fine-tune idea: train a small model to craft context for a frozen big model, score the big model's outputs, use that as reward for the small one grpo for context tuning. more below
17,51K