Store modeller er gode agenter, men ofte for store, lukkede eller delikate til å finjustere Idé: Tren en liten modell til å lage kontekst for en frossen stor modell, rangere den store modellens resultater, bruke den som belønning for den lille GRPO for kontekstjustering. Mer nedenfor
11,59K