熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Jason Wei
AI 研究員 @openai
Jason Wei 已轉發
這是我兩個月前在 @Cornell 的講座
「我該如何提高我的產出?」一個自然的答案是「我會多工作幾個小時。」工作更長的時間可以幫助,但最終你會達到一個身體的極限。
一個更好的問題是,「我該如何在不增加輸入的情況下提高我的產出?」這就是槓桿。
我們聽到「槓桿」這個詞太多,以至於它的含義容易被忽視。我個人最喜歡的槓桿分類是由 Naval Ravikant 提出的:人力、資本和代碼/媒體。每一種都在歷史上推動了重大的財富創造浪潮。
然而,當一個槓桿來源變得流行(想想今天的 YouTube 頻道與十年前的比較)時,競爭會壓縮利潤。因此,當出現新的槓桿時,這是一個獲得超額收益的難得機會。
在這次演講中,我將 AI 描述為那種新興的槓桿。AI 代理結合了勞動槓桿(它為你工作且不需要許可)和代碼槓桿(你可以複製和粘貼它)。
說 AI 將創造巨大的財富是陳詞濫調。但使用這種槓桿的視角讓我們能夠以一致的方式解讀嘈雜的 AI 新聞周期,並發現真正的機會。
感謝 @unsojo 的邀請!
402.4K
關於驗證的不對稱性和「驗證者法則」的新博客文章:
驗證的不對稱性——某些任務的驗證比解決更容易的想法——隨著我們的強化學習(RL)最終普遍有效,正變得越來越重要。
驗證不對稱性的絕佳例子包括數獨謎題、為像 Instagram 這樣的網站編寫代碼,以及 BrowseComp 問題(需要約 100 個網站來找到答案,但一旦有了答案就很容易驗證)。
其他任務則具有近乎對稱的驗證,例如對兩個 900 位數字求和或某些數據處理腳本。還有一些任務提出可行解決方案比驗證它們要容易得多(例如,事實檢查一篇長文章或提出一種新的飲食方式,如「只吃野牛」)。
理解驗證不對稱性的一個重要點是,通過提前做一些工作可以改善不對稱性。例如,如果你有數學問題的答案鍵,或者如果你有 Leetcode 問題的測試用例。這大大增加了具有理想驗證不對稱性問題的集合。
「驗證者法則」指出,訓練 AI 解決任務的難易程度與任務的可驗證性成正比。所有可以解決且易於驗證的任務都將被 AI 解決。訓練 AI 解決任務的能力與任務是否具備以下特性成正比:
1. 客觀真理:每個人都同意什麼是好的解決方案
2. 快速驗證:任何給定的解決方案可以在幾秒鐘內驗證
3. 可擴展驗證:可以同時驗證許多解決方案
4. 低噪音:驗證與解決方案質量的相關性盡可能緊密
5. 持續獎勵:很容易對單個問題的多個解決方案進行排名
驗證者法則的一個明顯實例是,AI 中提出的大多數基準都是易於驗證的,並且迄今為止已經被解決。注意,過去十年幾乎所有流行的基準都符合標準 #1-4;不符合標準 #1-4 的基準將難以變得流行。
為什麼可驗證性如此重要?當上述標準得到滿足時,AI 中的學習量達到最大;你可以進行很多梯度步驟,每一步都有大量信號。迭代速度至關重要——這就是為什麼數位世界的進步比物理世界的進步快得多的原因。
Google 的 AlphaEvolve 是利用驗證不對稱性的最佳例子之一。它專注於符合上述所有標準的設置,並在數學和其他領域帶來了一些進展。與我們在 AI 中過去二十年所做的不同,它是一種新範式,所有問題都在訓練集等同於測試集的環境中進行優化。
驗證不對稱性無處不在,考慮一個我們可以測量的世界,任何事情都將被解決,令人興奮。

298.71K
直接就是好歌,我馬上就讀了

Kevin Lu7月10日 00:01
為什麼你應該停止從事強化學習研究,而應該專注於產品 //
解鎖人工智慧大規模擴展轉變的技術是互聯網,而不是變壓器
我想大家都知道數據在人工智慧中是最重要的東西,但研究人員卻選擇不去研究它。... 在可擴展的方式上,研究數據意味著什麼?
互聯網提供了豐富的數據來源,這些數據不僅豐富多樣,還提供了自然的課程,代表了人們真正關心的能力,並且是一種經濟上可行的技術,可以大規模部署——它成為了下一個標記預測的完美補充,並且是人工智慧起飛的原始湯。
如果沒有變壓器,任何數量的方法都可能起飛,我們可能會有 CNN 或狀態空間模型達到 GPT-4.5 的水平。但自從 GPT-4 以來,基礎模型並沒有顯著改善。推理模型在狹窄的領域中表現出色,但並不像 GPT-4 在 2023 年 3 月(兩年多前)那樣有巨大的飛躍。
我們在強化學習方面有一些偉大的東西,但我深深擔心我們會重蹈過去的覆轍(2015-2020 年代的強化學習),進行不重要的強化學習研究。
就像互聯網是監督預訓練的對偶一樣,什麼將是強化學習的對偶,將導致像 GPT-1 -> GPT-4 這樣的重大進展?我認為這看起來像是研究-產品共同設計。

18.59K
我們還沒有 AI 的自我提升能力,當我們這樣做時,它將改變遊戲規則。與 GPT-4 相比,現在有了更多的智慧,很明顯它不會是“快速起飛”,而是在很多年,可能是十年內極其漸進的。
首先要知道的是,自我提升,即模型自我訓練,不是二元的。考慮一下 GPT-5 訓練 GPT-6 的場景,這將是不可思議的。GPT-5 會突然從根本無法訓練 GPT-6 變成訓練得非常熟練嗎?絕對不是。與人類研究人員相比,第一次 GPT-6 訓練運行在時間和計算方面可能非常低效。只有經過多次試驗,GPT-5 才能真正比人類更好地訓練 GPT-6。
其次,即使模型可以自我訓練,它也不會突然在所有領域變得更好。在各個領域提高自己的難度是有梯度的。例如,也許自我提升一開始只對我們已經知道如何在訓練后輕鬆解決的領域起作用,比如基本的幻覺或風格。接下來是數學和編碼,這需要更多的工作,但已經建立了改進模型的方法。然後在極端情況下,你可以想像有一些任務對於自我提升來說非常困難。例如,能夠說特林吉特語,這是一種有 ~500 人使用的美洲原住民語言。該模型很難在說特林吉特語方面進行自我改進,因為除了收集更多需要時間的數據外,我們還沒有辦法解決像這樣的低資源語言。因此,由於自我提升的難度梯度,它不會一下子全部發生。
最後,也許這是有爭議的,但最終科學進步受到現實世界實驗的阻礙。有些人可能認為閱讀所有生物學論文會告訴我們治癒癌症的方法,或者閱讀所有 ML 論文並掌握所有數學可以讓你完美地訓練 GPT-10。如果是這樣的話,那麼閱讀最多論文和研究最多理論的人將是最好的 AI 研究人員。但實際發生的事情是,人工智慧(和許多其他領域)變得由無情的實證研究人員主導,這反映了有多少進步是基於現實世界的實驗,而不是原始的智慧。所以我的觀點是,儘管超級智慧代理可能會設計出比我們最好的人類研究人員好 2 倍甚至 5 倍的實驗,但歸根結底,他們仍然必須等待實驗運行,這將是一種加速,但不是快速起飛。
總而言之,進步存在許多瓶頸,而不僅僅是原始的智力或自我提升的系統。AI 將解決許多領域,但每個領域都有自己的進展速度。即使是最高的智慧,也仍然需要在現實世界中進行實驗。所以這將是一個加速,而不是快速起飛,謝謝你閱讀我的咆哮
339.83K
熱門
排行
收藏
鏈上熱點
X 熱門榜
近期融資
最受認可