熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我最好的猜測:
評分標準 + LLM 評判 - 將每一點在真實證據中細分,並檢查與模型輸出的一致性。
我對他們如何使這變得可擴展的猜測 - 之前並不是這樣,人類必須仔細地製作它們,我猜他們訓練或做了某些事情,以便為每個特定問題或其答案生成非常好的評分標準。

7月19日 15:50
除了結果本身,我對我們的方法感到興奮:我們達到這一能力水平不是通過狹窄的、特定任務的方法,而是通過在通用強化學習和測試時計算擴展方面開創新局。
.@polynoamial @alexwei_ 如果我對的話請眨兩次眼,如果我錯的話請眨三次 - 在盲人被盲人引導之前 xD
21.26K
熱門
排行
收藏