一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

Bonk 生態迷因幣展現強韌勢頭

有消息稱 Pump.fun 計劃 40 億估值發幣，引發市場猜測

Solana 新代幣發射平臺 Boop.Fun 風頭正勁

BOOP+13.7%

Boopa+4.92%

PORK+37.7%

Misha Laskin

@reflection_ai 聯合創始人兼首席執行官。上一篇：特約研究科學家 @DeepMind. 雙子座RL團隊。

Misha Laskin7月16日 23:08

工程師花70%的時間在理解代碼，而不是編寫代碼。這就是為什麼我們在@reflection_ai建立了Asimov。這是為團隊和組織打造的最佳代碼研究代理。

281.01K

Misha Laskin 已轉發

Quentin Anthony7月12日 16:21

我曾是這項研究中的16位開發者之一。我想談談我對開發者減速的原因和緩解策略的看法。我會說作為一個「為什麼要聽你的？」的引子，我在我負責的問題上經歷了-38%的AI加速。我認為透明度有助於社區。

1.72M

Misha Laskin7月10日 04:48

強化學習研究中最大的問題一直是 - 你在什麼環境中進行訓練？過去是視頻（Atari）和棋盤（圍棋/象棋）遊戲。但現在強化學習與大型語言模型（LLMs）一起工作，只有一個環境是重要的。那就是你的產品。

Kevin Lu7月10日 00:01

為什麼你應該停止從事強化學習研究，而應該專注於產品 // 解鎖人工智慧大規模擴展轉變的技術是互聯網，而不是變壓器我想大家都知道數據在人工智慧中是最重要的東西，但研究人員卻選擇不去研究它。... 在可擴展的方式上，研究數據意味著什麼？互聯網提供了豐富的數據來源，這些數據不僅豐富多樣，還提供了自然的課程，代表了人們真正關心的能力，並且是一種經濟上可行的技術，可以大規模部署——它成為了下一個標記預測的完美補充，並且是人工智慧起飛的原始湯。如果沒有變壓器，任何數量的方法都可能起飛，我們可能會有 CNN 或狀態空間模型達到 GPT-4.5 的水平。但自從 GPT-4 以來，基礎模型並沒有顯著改善。推理模型在狹窄的領域中表現出色，但並不像 GPT-4 在 2023 年 3 月（兩年多前）那樣有巨大的飛躍。我們在強化學習方面有一些偉大的東西，但我深深擔心我們會重蹈過去的覆轍（2015-2020 年代的強化學習），進行不重要的強化學習研究。就像互聯網是監督預訓練的對偶一樣，什麼將是強化學習的對偶，將導致像 GPT-1 -> GPT-4 這樣的重大進展？我認為這看起來像是研究-產品共同設計。

10.62K

Misha Laskin 已轉發

Kasey Zhang7月4日 01:31

使用 RL 微調小型模型很容易，以便在垂直任務上優於基礎模型。我們開源了 Osmosis-Apply-1.7B：一個小模型，它比基礎模型更好地合併代碼（類似於 Cursor 的即時應用）。下載和試用以下模型的連結！

111.34K