熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Adam Wolff
Claude Code @AnthropicAI 🤖
狂熱的廚師、敬業的雪人、瑜伽愛好者
Claude Code 是如此可定製,但功能很難被發現。很多人都沉迷於自定義命令的強大功能。現在他們甚至可以嵌入bash輸出!
如果您還沒有使用這些功能,請再看一眼。

Alex Albert7月2日 00:19
提醒一下,斜杠命令允許您將自定義提示存儲為 Markdown 檔,並使用 /your-command 調用它們。
通過此更新,您現在可以:
- 從 slash 命令執行 bash 命令
- @ 提及文件作為上下文
- 使用命令中的關鍵字實現擴展思考

9.93K
今天的評估就像十年前的測試一樣。這顯然很重要,但也不清楚具體如何投資以及投資多少。
這是一個很好的建議,但最重要的是嘗試。如果您的產品集成了 AI 並且您沒有評估,那麼您正在建造一座由沙子製成的城堡。

shyamal2025年5月20日
EVALS 入門不需要太多。我們看到的適用於小型團隊的模式看起來很像應用於 AI 工程的測試驅動開發:
1/ 將評估錨定在使用者故事中,而不是抽象的基準測試中:與你的產品/設計同行坐下來,列出你的模型需要為使用者做的具體事情。“準確回答保險索賠問題”、“從自然語言生成 SQL 查詢”。對於每個輸入,寫入 10-20 個代表性輸入和所需的輸出/行為。這是您的第一個 EVAL 檔。
2/ 從第一天開始自動化,即使它很脆。抵制 「只是盯著它 」的誘惑。 好吧,好吧,Vibes 的擴展時間不會太長。將評估包裝在代碼中。你可以編寫一個簡單的 PyTest 來迴圈你的示例,調用模型,並斷言某些子字串出現。這很粗糙,但這是一個開始。
3/ 使用該模型來引導更難的評估數據。手動編寫數百個邊緣案例的成本很高。您可以使用推理模型 (O3) 生成合成變體(“給我 50 個涉及火災損壞的索賠問題”),然後手動篩選。這可以在不犧牲相關性的情況下加快覆蓋率。
4/ 不要追逐排行榜;反覆運算失敗的內容。當生產中出現問題時,不要只修復提示符 - 將失敗的情況添加到您的 EVAL 集中。隨著時間的推移,您的套件將增長以反映您的真實故障模式。定期對 EVALS 進行切片(按 Input Length、按 locale 等),以查看是否在特定 Segment 上回歸。
5/ 隨著產品的成熟而改進您的指標。隨著規模的擴大,您將需要更細緻的評分(語義相似性、人工評分、成本/延遲跟蹤)。在您的 EVAL Harness 中構建 Hook 以記錄這些並隨著時間的推移對其進行趨勢分析。檢測您的UI以收集隱式反饋(使用者是否點擊了“豎起大拇指”?)並將其反饋到您的離線評估中。
6/ 使 evals 可見。在團隊和利益相關者面前放置一個簡單的儀錶板,顯示評估通過率、成本、延遲。在站立比賽中使用它。這創造了問責制,並説明非ML人員參與權衡討論。
最後,將 EVALS 視為核心工程工件。 分配擁有權,在 Code Review 中審查它們,當您添加新的棘手案例時慶祝。隨著您的擴展,該學科將帶來復合紅利。
1.1K
熱門
排行
收藏
鏈上熱點
X 熱門榜
近期融資
最受認可