一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

Bonk 生態迷因幣展現強韌勢頭

有消息稱 Pump.fun 計劃 40 億估值發幣，引發市場猜測

Solana 新代幣發射平臺 Boop.Fun 風頭正勁

BOOP+3.2%

Boopa-3.49%

PORK+2.32%

Adam Wolff

Claude Code @AnthropicAI 🤖 狂熱的廚師、敬業的雪人、瑜伽愛好者

Adam Wolff7月15日 06:49

Claude Code 現在已經可以在 Windows 上原生運行。像這樣的功能雖然不華麗，但它們讓 Claude Code *如此* 強大。我們希望它能在你使用的每個地方運行。

Alex Albert7月15日 03:07

我們今天有另一個關於Claude Code的重要更新：它現在可以原生支持Windows。

13K

Adam Wolff7月13日 06:10

"雖然競爭感覺像是一股強大的力量，但合作是唯一更強大的力量。" @tomocchino ❤️

Ryan Vogel7月13日 01:50

查看我們最新一集的第一部分，與 @tomocchino 來自 @vercel 的對話（再次感謝 vercel 讓我們在總部拍攝）

10.15K

Adam Wolff7月2日 01:16

Claude Code 是如此可定製，但功能很難被發現。很多人都沉迷於自定義命令的強大功能。現在他們甚至可以嵌入bash輸出！如果您還沒有使用這些功能，請再看一眼。

Alex Albert7月2日 00:19

提醒一下，斜杠命令允許您將自定義提示存儲為 Markdown 檔，並使用 /your-command 調用它們。通過此更新，您現在可以： - 從 slash 命令執行 bash 命令 - @ 提及文件作為上下文 - 使用命令中的關鍵字實現擴展思考

9.93K

Adam Wolff 已轉發

Mike Krieger2025年6月21日

我們正在招聘 Claude Code 團隊！特別是，我們正在尋找一名系統工程師（）和一名工程師經理（）。Claude Code 團隊玩得很開心，快來加入我們吧：）

277

Adam Wolff2025年6月18日

是時候合併一些 PR 了

931

Adam Wolff2025年5月28日

超級興奮能在週四的 SF Node 聚會上發言！我將討論我們在構建 Claude Code 中的一些傾向：用於代理的 JS/TS 與 Python、用於 CLI 的 React 以及 SQLite 的危險。希望在那裡見到你！

3.82K

Adam Wolff2025年5月21日

今天的評估就像十年前的測試一樣。這顯然很重要，但也不清楚具體如何投資以及投資多少。這是一個很好的建議，但最重要的是嘗試。如果您的產品集成了 AI 並且您沒有評估，那麼您正在建造一座由沙子製成的城堡。

shyamal2025年5月20日

EVALS 入門不需要太多。我們看到的適用於小型團隊的模式看起來很像應用於 AI 工程的測試驅動開發： 1/ 將評估錨定在使用者故事中，而不是抽象的基準測試中：與你的產品/設計同行坐下來，列出你的模型需要為使用者做的具體事情。“準確回答保險索賠問題”、“從自然語言生成 SQL 查詢”。對於每個輸入，寫入 10-20 個代表性輸入和所需的輸出/行為。這是您的第一個 EVAL 檔。 2/ 從第一天開始自動化，即使它很脆。抵制「只是盯著它」的誘惑。好吧，好吧，Vibes 的擴展時間不會太長。將評估包裝在代碼中。你可以編寫一個簡單的 PyTest 來迴圈你的示例，調用模型，並斷言某些子字串出現。這很粗糙，但這是一個開始。 3/ 使用該模型來引導更難的評估數據。手動編寫數百個邊緣案例的成本很高。您可以使用推理模型（O3）生成合成變體（“給我 50 個涉及火災損壞的索賠問題”），然後手動篩選。這可以在不犧牲相關性的情況下加快覆蓋率。 4/ 不要追逐排行榜;反覆運算失敗的內容。當生產中出現問題時，不要只修復提示符 - 將失敗的情況添加到您的 EVAL 集中。隨著時間的推移，您的套件將增長以反映您的真實故障模式。定期對 EVALS 進行切片（按 Input Length、按 locale 等），以查看是否在特定 Segment 上回歸。 5/ 隨著產品的成熟而改進您的指標。隨著規模的擴大，您將需要更細緻的評分（語義相似性、人工評分、成本/延遲跟蹤）。在您的 EVAL Harness 中構建 Hook 以記錄這些並隨著時間的推移對其進行趨勢分析。檢測您的UI以收集隱式反饋（使用者是否點擊了“豎起大拇指”？）並將其反饋到您的離線評估中。 6/ 使 evals 可見。在團隊和利益相關者面前放置一個簡單的儀錶板，顯示評估通過率、成本、延遲。在站立比賽中使用它。這創造了問責制，並説明非ML人員參與權衡討論。最後，將 EVALS 視為核心工程工件。分配擁有權，在 Code Review 中審查它們，當您添加新的棘手案例時慶祝。隨著您的擴展，該學科將帶來復合紅利。

1.1K