Quelqu'un a-t-il essayé le RL pour réécrire des prompts pour des modèles de raisonnement afin d'améliorer encore les résultats ? Je suppose que oui, cela semble assez évident, mais si ce n'est pas le cas, je veux essayer. Si vous connaissez des travaux existants à ce sujet, faites-le moi savoir pour que je ne refasse pas quelque chose que d'autres ont déjà fait !
Par cela, je veux dire : - Prendre un modèle de raisonnement déjà entraîné et figé (c'est-à-dire o4-mini via API) - Ajouter un LLM plus petit qui prend un prompt et le réécrit pour améliorer la performance du modèle figé - Mettre à jour les poids du LLM plus petit, garder le LLM plus grand figé L'espoir est que le petit LLM apprenne à 'diriger' le CoT du modèle plus grand figé mieux qu'un humain ne pourrait le faire, augmentant ainsi la performance.
@corbtt m'a rappelé ce travail de @brendanh0gan... Brendan, comment ça s'est passé ? Ça semble assez similaire à ce que je pense ici.
Brendan Hogan
Brendan Hogan3 juil., 08:26
big models are great agents but often too big, closed, or delicate to fine-tune idea: train a small model to craft context for a frozen big model, score the big model's outputs, use that as reward for the small one grpo for context tuning. more below
17,5K