Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Alguém já tentou RL para reescrever prompts para modelos de raciocínio para melhorar ainda mais as saídas?
Estou assumindo que sim, parece bastante óbvio, mas se não, quero tentar.
Se você souber de algum trabalho existente aqui, por favor, lmk para que eu não refaça algo que as pessoas já fizeram!
Com isso, quero dizer:
- Pegue um modelo de raciocínio congelado já treinado (ou seja, o4-mini via API)
- Adicione um LLM menor que recebe um prompt e o reescreve para melhorar o desempenho do modelo congelado
- Atualize os pesos do LLM menor, mantenha o LLM maior congelado
A esperança é que o pequeno LLM aprenda a "dirigir" o CoT do modelo maior congelado melhor do que um ser humano, aumentando o desempenho.
@corbtt me lembrou deste trabalho de @brendanh0gan...
Brendan, como foi? Parece muito semelhante ao que estou pensando aqui.

3 de jul., 08:26
Grandes modelos são ótimos agentes, mas muitas vezes muito grandes, fechados ou delicados para serem ajustados
Ideia: treinar um modelo pequeno para criar contexto para um modelo grande congelado, pontuar as saídas do modelo grande, usar isso como recompensa para o pequeno
grpo para ajuste de contexto. Mais abaixo

17,57K
Melhores
Classificação
Favoritos