一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

EVALS 入門不需要太多。我們看到的適用於小型團隊的模式看起來很像應用於 AI 工程的測試驅動開發： 1/ 將評估錨定在使用者故事中，而不是抽象的基準測試中：與你的產品/設計同行坐下來，列出你的模型需要為使用者做的具體事情。“準確回答保險索賠問題”、“從自然語言生成 SQL 查詢”。對於每個輸入，寫入 10-20 個代表性輸入和所需的輸出/行為。這是您的第一個 EVAL 檔。 2/ 從第一天開始自動化，即使它很脆。抵制「只是盯著它」的誘惑。好吧，好吧，Vibes 的擴展時間不會太長。將評估包裝在代碼中。你可以編寫一個簡單的 PyTest 來迴圈你的示例，調用模型，並斷言某些子字串出現。這很粗糙，但這是一個開始。 3/ 使用該模型來引導更難的評估數據。手動編寫數百個邊緣案例的成本很高。您可以使用推理模型（O3）生成合成變體（“給我 50 個涉及火災損壞的索賠問題”），然後手動篩選。這可以在不犧牲相關性的情況下加快覆蓋率。 4/ 不要追逐排行榜;反覆運算失敗的內容。當生產中出現問題時，不要只修復提示符 - 將失敗的情況添加到您的 EVAL 集中。隨著時間的推移，您的套件將增長以反映您的真實故障模式。定期對 EVALS 進行切片（按 Input Length、按 locale 等），以查看是否在特定 Segment 上回歸。 5/ 隨著產品的成熟而改進您的指標。隨著規模的擴大，您將需要更細緻的評分（語義相似性、人工評分、成本/延遲跟蹤）。在您的 EVAL Harness 中構建 Hook 以記錄這些並隨著時間的推移對其進行趨勢分析。檢測您的UI以收集隱式反饋（使用者是否點擊了“豎起大拇指”？）並將其反饋到您的離線評估中。 6/ 使 evals 可見。在團隊和利益相關者面前放置一個簡單的儀錶板，顯示評估通過率、成本、延遲。在站立比賽中使用它。這創造了問責制，並説明非ML人員參與權衡討論。最後，將 EVALS 視為核心工程工件。分配擁有權，在 Code Review 中審查它們，當您添加新的棘手案例時慶祝。隨著您的擴展，該學科將帶來復合紅利。

24.35K