AutoML GRPO biến việc huấn luyện RL hipster thành một lệnh gọi hàm
Wandering Weights
Wandering Weights16:02 23 thg 7
Sắp tới có một cuộc tìm kiếm mới vào tháng sau, vì vậy tôi đã lùi lại một bước để xem những gì chúng tôi đã thực sự phát hành kể từ lần trước. Thật điên rồ khi mọi thứ diễn ra nhanh chóng khi bạn tập trung: * Đã thêm DPO * Đã thêm GRPO * Đường ống đào tạo Instruct gốc đã được thử nghiệm với Meta * Hàng trăm thí nghiệm + tài liệu chứng minh @gradients_ai vượt trội hơn các đối thủ Sau đó là điều lớn: 5.0 → chuyển hoàn toàn sang mã nguồn mở, subnet tập trung vào doanh nghiệp Tất cả đã xảy ra trong ba tháng qua. Có đúng không? 🤯
3,02K