llm 分析(以及監管和 PMing)之所以困難* 是因為相關的 DIMENSIONS 隨著每一代前沿模型不斷變化;僅僅將 x 或 y 軸設置為對數刻度並追蹤縮放法則是不夠的,你必須實際思考模型在 2025 年、2024 年、2023 年等年份的結構性差異。 eg everyone 專注於 elo 兩年,elo 被利用並失去可信度。 everyone 專注於每個代幣的價格三年,推理模型在每個任務的輸出代幣上有 10-40 倍的變化,每個代幣的價格失去意義。 隨便收集數據,但如果你只是收集純淨的時間序列,你可能會失去更大局面的視野。 *(以及為什麼像“ai 工程師不是一個職業,因為所有軟體工程師都是 ai 工程師”這樣的說法是自我安慰,並且在最微不足道的意義上永遠不會正確)
Scott Huston
Scott Huston7月22日 08:30
是否有一個公開的電子表格,列出來自不同公司的所有主要 LLM 模型,顯示它們的定價、基準分數、競技場 Elo 分數等?
9.72K