熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
關於驗證的不對稱性和「驗證者法則」的新博客文章:
驗證的不對稱性——某些任務的驗證比解決更容易的想法——隨著我們的強化學習(RL)最終普遍有效,正變得越來越重要。
驗證不對稱性的絕佳例子包括數獨謎題、為像 Instagram 這樣的網站編寫代碼,以及 BrowseComp 問題(需要約 100 個網站來找到答案,但一旦有了答案就很容易驗證)。
其他任務則具有近乎對稱的驗證,例如對兩個 900 位數字求和或某些數據處理腳本。還有一些任務提出可行解決方案比驗證它們要容易得多(例如,事實檢查一篇長文章或提出一種新的飲食方式,如「只吃野牛」)。
理解驗證不對稱性的一個重要點是,通過提前做一些工作可以改善不對稱性。例如,如果你有數學問題的答案鍵,或者如果你有 Leetcode 問題的測試用例。這大大增加了具有理想驗證不對稱性問題的集合。
「驗證者法則」指出,訓練 AI 解決任務的難易程度與任務的可驗證性成正比。所有可以解決且易於驗證的任務都將被 AI 解決。訓練 AI 解決任務的能力與任務是否具備以下特性成正比:
1. 客觀真理:每個人都同意什麼是好的解決方案
2. 快速驗證:任何給定的解決方案可以在幾秒鐘內驗證
3. 可擴展驗證:可以同時驗證許多解決方案
4. 低噪音:驗證與解決方案質量的相關性盡可能緊密
5. 持續獎勵:很容易對單個問題的多個解決方案進行排名
驗證者法則的一個明顯實例是,AI 中提出的大多數基準都是易於驗證的,並且迄今為止已經被解決。注意,過去十年幾乎所有流行的基準都符合標準 #1-4;不符合標準 #1-4 的基準將難以變得流行。
為什麼可驗證性如此重要?當上述標準得到滿足時,AI 中的學習量達到最大;你可以進行很多梯度步驟,每一步都有大量信號。迭代速度至關重要——這就是為什麼數位世界的進步比物理世界的進步快得多的原因。
Google 的 AlphaEvolve 是利用驗證不對稱性的最佳例子之一。它專注於符合上述所有標準的設置,並在數學和其他領域帶來了一些進展。與我們在 AI 中過去二十年所做的不同,它是一種新範式,所有問題都在訓練集等同於測試集的環境中進行優化。
驗證不對稱性無處不在,考慮一個我們可以測量的世界,任何事情都將被解決,令人興奮。

298.71K
熱門
排行
收藏