Stora modeller är bra agenter men ofta för stora, slutna eller känsliga för att finjusteras Idé: Träna en liten modell för att skapa kontext för en fryst stor modell, poängsätta den stora modellens utdata, använda den som belöning för den lilla GRPO för kontextjustering. Mer nedan
11,62K