熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
llm 分析(以及監管和 PMing)之所以困難*
是因為相關的 DIMENSIONS 隨著每一代前沿模型不斷變化;僅僅將 x 或 y 軸設置為對數刻度並追蹤縮放法則是不夠的,你必須實際思考模型在 2025 年、2024 年、2023 年等年份的結構性差異。
eg
everyone 專注於 elo 兩年,elo 被利用並失去可信度。
everyone 專注於每個代幣的價格三年,推理模型在每個任務的輸出代幣上有 10-40 倍的變化,每個代幣的價格失去意義。
隨便收集數據,但如果你只是收集純淨的時間序列,你可能會失去更大局面的視野。
*(以及為什麼像“ai 工程師不是一個職業,因為所有軟體工程師都是 ai 工程師”這樣的說法是自我安慰,並且在最微不足道的意義上永遠不會正確)

7月22日 08:30
是否有一個公開的電子表格,列出來自不同公司的所有主要 LLM 模型,顯示它們的定價、基準分數、競技場 Elo 分數等?
9.72K
熱門
排行
收藏