Có ai đã thử RL để viết lại các prompt cho các mô hình lý luận nhằm cải thiện đầu ra hơn nữa chưa? Tôi giả định là có, điều này có vẻ khá hiển nhiên, nhưng nếu chưa thì tôi muốn thử nghiệm. Nếu bạn biết có bất kỳ công trình nào đã tồn tại ở đây, xin hãy cho tôi biết để tôi không làm lại những gì mà mọi người đã làm!
Ý tôi là: - Lấy một mô hình lý luận đã được đào tạo sẵn và đóng băng (tức là o4-mini qua API) - Thêm một LLM nhỏ hơn nhận một prompt và viết lại nó để cải thiện cách mà mô hình đóng băng hoạt động - Cập nhật trọng số của LLM nhỏ hơn, giữ cho LLM lớn hơn ở trạng thái đóng băng Hy vọng rằng LLM nhỏ sẽ học cách 'lái' CoT của mô hình lớn hơn đã đóng băng tốt hơn một con người, từ đó tăng cường hiệu suất.
@corbtt đã nhắc tôi về công việc này của @brendanh0gan... Brendan, mọi chuyện diễn ra thế nào? Có vẻ khá giống với những gì tôi đang nghĩ ở đây.
Brendan Hogan
Brendan Hogan08:26 3 thg 7
big models are great agents but often too big, closed, or delicate to fine-tune idea: train a small model to craft context for a frozen big model, score the big model's outputs, use that as reward for the small one grpo for context tuning. more below
17,51K