alasan analisis llm (dan regulasi, dan PMing) sulit* adalah bahwa DIMENSI yang relevan terus bergerak dengan setiap generasi model perbatasan; Tidak cukup hanya menempatkan sumbu X atau Y Anda dalam skala log dan melacak hukum penskalaan, Anda harus benar-benar melakukan pekerjaan untuk memikirkan bagaimana model berbeda secara struktural pada tahun 2025 vs 2024 vs 2023 dan seterusnya misalnya Semua orang fokus pada Elo selama 2 tahun, Elo dipermainkan dan kehilangan kredibilitas Semua orang fokus pada harga per token selama 3 tahun, model penalaran memiliki variasi 10-40x dalam token keluaran per tugas, harga per token kehilangan makna Kumpulkan data sesuka Anda, tetapi jika Anda hanya mengumpulkan deret waktu yang murni, Anda dapat melupakan gambaran yang lebih besar *(dan mengapa pernyataan seperti "insinyur ai bukan sesuatu karena semua insinyur perangkat lunak adalah insinyur AI" mengatasi dan tidak akan pernah benar kecuali dalam arti yang paling sepele)
Scott Huston
Scott Huston22 Jul, 08.30
Apakah ada spreadsheet publik dari semua model LLM terkemuka dari berbagai perusahaan yang menunjukkan harga, skor tolok ukur, skor elo arena, dll?
9,73K