a razão pela qual a análise de llm (e regulação, e PMing) é difícil* é que as DIMENSÕES relevantes continuam a mudar com cada geração de modelo de fronteira; não é suficiente apenas colocar o seu eixo x ou y em escala logarítmica e rastrear leis de escalonamento, você realmente tem que fazer o trabalho de pensar sobre como os modelos são estruturalmente diferentes em 2025 em comparação com 2024, 2023 e assim por diante eg todos focaram no elo por 2 anos, o elo é manipulado e perde credibilidade todos focaram no preço por tokens por 3 anos, modelos de raciocínio têm variação de 10-40x na saída de tokens por tarefa, o preço por token perde significado colete dados o quanto quiser, mas se você está apenas coletando séries temporais pristinas, pode perder de vista o quadro maior *(e por que declarações como “engenheiro de ai não é uma coisa porque todos os engenheiros de software são engenheiros de ai” são uma forma de lidar e nunca estarão certas, exceto no sentido mais trivial)
Scott Huston
Scott Huston22/07, 08:30
Existe uma folha de cálculo pública com todos os principais modelos LLM de diferentes empresas mostrando seus preços, pontuações de benchmark, pontuações de elo na arena, etc?
9,9K