de reden waarom llm-analyse (en regulering, en PMing) moeilijk is* is dat de relevante DIMENSIES blijven bewegen met elke generatie van grensmodellen; het is niet genoeg om gewoon je x- of y-as in logaritmische schaal te zetten en schalingwetten bij te houden, je moet echt het werk doen om na te denken over hoe modellen structureel verschillend zijn in 2025 versus 2024 versus 2023 en ga zo maar door. eg everyone focused on elo voor 2 jaar, elo wordt gemanipuleerd en verliest geloofwaardigheid. everyone focused on prijs per tokens voor 3 jaar, redeneermodellen hebben 10-40x variatie in output tokens per taak, prijs per token verliest betekenis. verzamel zoveel data als je wilt, maar als je alleen maar ongerepte tijdreeksen verzamelt, kun je het grotere geheel uit het oog verliezen. *(en waarom uitspraken zoals “ai engineer is niet echt omdat alle software-engineers ai-engineers zijn” onzin zijn en nooit juist zullen zijn, behalve in de meest triviale zin)
Scott Huston
Scott Huston22 jul, 08:30
Is er een openbare spreadsheet van alle toonaangevende LLM-modellen van verschillende bedrijven die hun prijzen, benchmark scores, arena elo-scores, enz. toont?
9,9K