Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Có ai đã thử RL để viết lại các prompt cho các mô hình lý luận nhằm cải thiện đầu ra hơn nữa chưa? Tôi giả định là có, điều này có vẻ khá hiển nhiên, nhưng nếu chưa thì tôi muốn thử nghiệm. Nếu bạn biết có bất kỳ công trình nào đã tồn tại ở đây, xin hãy cho tôi biết để tôi không làm lại những gì mà mọi người đã làm!

Ý tôi là: - Lấy một mô hình lý luận đã được đào tạo sẵn và đóng băng (tức là o4-mini qua API) - Thêm một LLM nhỏ hơn nhận một prompt và viết lại nó để cải thiện cách mà mô hình đóng băng hoạt động - Cập nhật trọng số của LLM nhỏ hơn, giữ cho LLM lớn hơn ở trạng thái đóng băng Hy vọng rằng LLM nhỏ sẽ học cách 'lái' CoT của mô hình lớn hơn đã đóng băng tốt hơn một con người, từ đó tăng cường hiệu suất.

@corbtt đã nhắc tôi về công việc này của @brendanh0gan... Brendan, mọi chuyện diễn ra thế nào? Có vẻ khá giống với những gì tôi đang nghĩ ở đây.

17,51K

Hàng đầu

Thứ hạng

Yêu thích

Onchain thịnh hành

Thịnh hành trên X

Ví funding hàng đầu gần đây

Được chú ý nhất