Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Có ai đã thử RL để viết lại các prompt cho các mô hình lý luận nhằm cải thiện đầu ra hơn nữa chưa?
Tôi giả định là có, điều này có vẻ khá hiển nhiên, nhưng nếu chưa thì tôi muốn thử nghiệm.
Nếu bạn biết có bất kỳ công trình nào đã tồn tại ở đây, xin hãy cho tôi biết để tôi không làm lại những gì mà mọi người đã làm!
Ý tôi là:
- Lấy một mô hình lý luận đã được đào tạo sẵn và đóng băng (tức là o4-mini qua API)
- Thêm một LLM nhỏ hơn nhận một prompt và viết lại nó để cải thiện cách mà mô hình đóng băng hoạt động
- Cập nhật trọng số của LLM nhỏ hơn, giữ cho LLM lớn hơn ở trạng thái đóng băng
Hy vọng rằng LLM nhỏ sẽ học cách 'lái' CoT của mô hình lớn hơn đã đóng băng tốt hơn một con người, từ đó tăng cường hiệu suất.
@corbtt đã nhắc tôi về công việc này của @brendanh0gan...
Brendan, mọi chuyện diễn ra thế nào? Có vẻ khá giống với những gì tôi đang nghĩ ở đây.

08:26 3 thg 7
big models are great agents but often too big, closed, or delicate to fine-tune
idea: train a small model to craft context for a frozen big model, score the big model's outputs, use that as reward for the small one
grpo for context tuning. more below

17,51K
Hàng đầu
Thứ hạng
Yêu thích