Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Quelqu'un a-t-il essayé le RL pour réécrire des prompts pour des modèles de raisonnement afin d'améliorer encore les résultats ?
Je suppose que oui, cela semble assez évident, mais si ce n'est pas le cas, je veux essayer.
Si vous connaissez des travaux existants à ce sujet, faites-le moi savoir pour que je ne refasse pas quelque chose que d'autres ont déjà fait !
Par cela, je veux dire :
- Prendre un modèle de raisonnement déjà entraîné et figé (c'est-à-dire o4-mini via API)
- Ajouter un LLM plus petit qui prend un prompt et le réécrit pour améliorer la performance du modèle figé
- Mettre à jour les poids du LLM plus petit, garder le LLM plus grand figé
L'espoir est que le petit LLM apprenne à 'diriger' le CoT du modèle plus grand figé mieux qu'un humain ne pourrait le faire, augmentant ainsi la performance.
@corbtt m'a rappelé ce travail de @brendanh0gan...
Brendan, comment ça s'est passé ? Ça semble assez similaire à ce que je pense ici.

3 juil., 08:26
big models are great agents but often too big, closed, or delicate to fine-tune
idea: train a small model to craft context for a frozen big model, score the big model's outputs, use that as reward for the small one
grpo for context tuning. more below

17,5K
Meilleurs
Classement
Favoris