🚨 你知道小批量的无动量香草SGD(即你在入门机器学习中学习的第一个优化器)在每个FLOP的基础上几乎和AdamW一样快吗?📜 1/n
小批量LLM训练被认为每FLOP的速度较慢,这促使了梯度累积以模拟更大的批量,即使在小规模的学术运行中。我们展示了一个简单的规则,用于缩放Adam超参数,使得每FLOP的训练效率可以降低到批量大小为1。4/n
我们观察到,小批量训练对优化器超参数如学习率和动量具有很强的鲁棒性。这意味着在固定的超参数调优预算下,您会在小批量模式中找到更好的超参数。6/n
341.2K