Dự đoán tốt nhất của tôi: Rubrics + LLM Judge - Phân tích từng điểm trong bằng chứng thực tế và kiểm tra với đầu ra của mô hình. Dự đoán của tôi về cách họ làm cho điều này có thể mở rộng - trước đây thì không, con người phải tỉ mỉ tạo ra chúng, là họ đã đào tạo hoặc làm điều gì đó để tạo ra các rubrics rất tốt cho mỗi vấn đề cụ thể hoặc câu trả lời của nó.
Alexander Wei
Alexander Wei15:50 19 thg 7
5/N Ngoài kết quả chính, tôi rất hào hứng về cách tiếp cận của chúng tôi: Chúng tôi đạt được cấp độ khả năng này không phải thông qua phương pháp hẹp, cụ thể cho nhiệm vụ, mà bằng cách mở ra những con đường mới trong học tăng cường đa mục đích và mở rộng tính toán trong thời gian kiểm tra.
.@polynoamial @alexwei_ nháy mắt hai lần nếu tôi đúng và ba lần nếu tôi sai - trước khi người mù bị dẫn dắt bởi người mù xD
21,74K