Мы только что выпустили более 100 промежуточных контрольных точек и наши журналы обучения из SmolLM3-3B. Мы надеемся, что это будет полезно исследователям, работающим над механическим интерпретированием, динамикой обучения, RL и другими темами :) Журналы обучения: -> Обычная потеря при обучении (разрыв в потере вызван изменением смеси), grad_norm и т.д. -> Метрики по слоям/блокам (норма l1/l2, среднее, минимум, максимум, куртозис) Контрольные точки: -> предварительное обучение каждые 40k шагов (94.4B токенов) -> расширение длинного контекста каждые 4k шагов (9.4B токенов) -> постобучение: SFT, среднее обучение, APO суп, LC эксперт
29,8K