DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Quelqu'un a-t-il essayé le RL pour réécrire des prompts pour des modèles de raisonnement afin d'améliorer encore les résultats ? Je suppose que oui, cela semble assez évident, mais si ce n'est pas le cas, je veux essayer. Si vous connaissez des travaux existants à ce sujet, faites-le moi savoir pour que je ne refasse pas quelque chose que d'autres ont déjà fait !

Par cela, je veux dire : - Prendre un modèle de raisonnement déjà entraîné et figé (c'est-à-dire o4-mini via API) - Ajouter un LLM plus petit qui prend un prompt et le réécrit pour améliorer la performance du modèle figé - Mettre à jour les poids du LLM plus petit, garder le LLM plus grand figé L'espoir est que le petit LLM apprenne à 'diriger' le CoT du modèle plus grand figé mieux qu'un humain ne pourrait le faire, augmentant ainsi la performance.

@corbtt m'a rappelé ce travail de @brendanh0gan... Brendan, comment ça s'est passé ? Ça semble assez similaire à ce que je pense ici.

17,5K

Meilleurs

Classement

Favoris

Tendance on-chain

Tendance sur X

Récents financements de premier plan

Les plus notables