Великі моделі є чудовими агентами, але часто вони занадто великі, закриті або делікатні для точного налаштування Ідея: Навчіть маленьку модель створювати контекст для замороженої великої моделі, оцінювати результати великої моделі, використовувати це як винагороду за маленьку GRPO для налаштування контексту. Детальніше нижче
11,6K