A razão pela qual a análise de LLM (e regulamentação e PMing) é difícil* é que as DIMENSÕES relevantes continuam se movendo a cada geração do modelo de fronteira; Não basta apenas colocar seu eixo X ou Y em log scale e rastrear leis de escala, você tem que realmente fazer o trabalho para pensar em como os modelos são estruturalmente diferentes em 2025 vs 2024 vs 2023 e assim por diante Eg Todos focados no Elo por 2 anos, Elo é enganado e perde credibilidade Todos focados no preço por tokens por 3 anos, os modelos de raciocínio têm variação de 10 a 40x nos tokens de saída por tarefa, o preço por token perde o significado Colete dados o quanto quiser, mas se você estiver apenas coletando séries temporais imaculadas, pode perder de vista o quadro geral * (e por que declarações como "engenheiro de IA não é uma coisa porque todos os engenheiros de software são engenheiros de IA" são lidar e nunca estarão certas, exceto no sentido mais trivial)
Scott Huston
Scott Huston22 de jul., 08:30
Existe uma planilha pública de todos os principais modelos de LLM de diferentes empresas mostrando seus preços, pontuações de benchmark, pontuações de elo de arena, etc?
9,9K