los grandes modelos son excelentes agentes, pero a menudo son demasiado grandes, cerrados o delicados para ajustar finamente. idea: entrenar un modelo pequeño para crear contexto para un modelo grande congelado, puntuar las salidas del modelo grande, usar eso como recompensa para el pequeño. grupo para ajuste de contexto. más abajo.
11,61K