Nếu bạn đang đọc cuốn sách RLHF từ @natolambert, Chương 11 (về Thuật toán Gradient Chính sách) vừa dài hơn một chút: Tôi đã đóng góp toàn bộ quá trình suy diễn của mục tiêu Gradient Chính sách!
11,17K