Der Grund, warum die Analyse (und Regulierung sowie PMing) von LLMs schwierig ist* liegt darin, dass die relevanten DIMENSIONEN sich mit jeder Generation des Grenzmodells verändern; es reicht nicht aus, einfach die x- oder y-Achse im Logarithmusmaßstab darzustellen und Skalierungsgesetze zu verfolgen, man muss tatsächlich die Arbeit leisten, um darüber nachzudenken, wie sich Modelle strukturell in 2025 im Vergleich zu 2024 und 2023 usw. unterscheiden. eg everyone focused on elo for 2 years, elo gets gamed and loses credibility everyone focused on price per tokens for 3 years, reasoning models have 10-40x variation in output tokens per task, price per token loses meaning Sammle Daten, so viel du willst, aber wenn du nur makellose Zeitreihen sammelst, kannst du das größere Bild aus den Augen verlieren. *(und warum Aussagen wie „AI Engineer ist kein Beruf, weil alle Software-Ingenieure AI-Ingenieure sind“ nur eine Ausrede sind und niemals richtig sein werden, außer im trivialsten Sinne)
Scott Huston
Scott Huston22. Juli, 08:30
Gibt es eine öffentliche Tabelle aller führenden LLM-Modelle von verschiedenen Unternehmen, die deren Preise, Benchmark-Ergebnisse, Arena-Elo-Punkte usw. zeigt?
9,9K