la razón por la que el análisis de LLM (y la regulación, y el PMing) es difícil* es que las DIMENSIONES relevantes sigan moviéndose con cada generación de modelo de frontera; No es suficiente simplemente poner su eje X o Y en las leyes de escala logarítmica y escala de seguimiento, debe hacer el trabajo para pensar en cómo los modelos son estructuralmente diferentes en 2025 vs 2024 vs 2023 y así sucesivamente Eg Todos se centraron en Elo durante 2 años, ELO se engaña y pierde credibilidad Todos se centraron en el precio por tokens durante 3 años, los modelos de razonamiento tienen una variación de 10-40x en los tokens de salida por tarea, el precio por token pierde significado recopile datos todo lo que desee, pero si solo está recopilando series temporales prístinas, puede perder de vista el panorama general * (y por qué afirmaciones como "ingeniero de IA no es una cosa porque todos los ingenieros de software son ingenieros de IA" son capaces y nunca serán correctas excepto en el sentido más trivial)
Scott Huston
Scott Huston22 jul, 08:30
¿Existe una hoja de cálculo pública de todos los principales modelos de LLM de diferentes compañías que muestre sus precios, puntajes de referencia, puntajes de elo de arena, etc.?
9.73K