Los modelos grandes son grandes agentes, pero a menudo son demasiado grandes, cerrados o delicados para afinarlos Idea: Entrena a un modelo pequeño para crear el contexto para un modelo grande congelado, puntúa los resultados del modelo grande, úsalo como recompensa para el pequeño grpo para el ajuste del contexto. más abajo
11.6K