熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
去中心化 AI 訓練中的思想/預測,2025 年。
1. 要說的一點是,與 18 個月前相比,我們絕對處於一個擁有去中心化 AI 訓練的世界。那時,分散式培訓是不可能的,現在它已經進入市場,是一個領域。
2. 毫無疑問,D-Training 的最終目標是在 D-Networks 上訓練有競爭力的前沿模型。因此,我們才剛剛開始我們的競爭之旅,但我們正在快速發展。
3. 現在的共識是,我們可以在 d-networks 上對數十億個參數模型(主要是 LLM,主要是 transformer 架構)進行預訓練和後訓練。目前最先進的技術水平高達 ~100B,其高端就在眼前,但尚未展示。
4. 現在共識是,我們可以在 d 網路上訓練 <10B 參數模型,這非常可行。還有一些具體的案例研究(主要來自 @gensynai @PrimeIntellect @NousResearch),其中 10B、32B、40B 參數已經或正在訓練。@gensynai 的訓練后集群可在多達 72B 參數模型上運行。
5. @PluralisHQ創新現在通過消除通信效率低下的瓶頸,使 d-networks 上可擴展預訓練的“不可能性”失效。然而,原始 FLOP、可靠性和可驗證性仍然是這些類型網路的瓶頸 —— 這些問題很容易解決,但需要一些時間才能從技術上解決。根據 Pluralis 的協議學習,我認為我們在 6-12 個月的時間範圍內可以達到 ~100B 模型。
6. 我們如何從 100B 到 300B 參數模型?我認為我們需要找到有效且流暢地分片參數的方法,並保持單個設備記憶體相對較低(例如,每個設備 <32GB 記憶體)。我認為我們需要在一個網路中達到 20 個 EFlop;這意味著大約 10-20K 的消費類設備在培訓中運行 4-6 周。
總的來說,d-training 有望成為一個非常令人興奮的領域。它的一些創新已經被考慮用於廣泛的 AI 應用。
4.14K
熱門
排行
收藏