热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
🚨 你知道小批量的无动量香草SGD(即你在入门机器学习中学习的第一个优化器)在每个FLOP的基础上几乎和AdamW一样快吗?📜 1/n

小批量LLM训练被认为每FLOP的速度较慢,这促使了梯度累积以模拟更大的批量,即使在小规模的学术运行中。我们展示了一个简单的规则,用于缩放Adam超参数,使得每FLOP的训练效率可以降低到批量大小为1。4/n

我们观察到,小批量训练对优化器超参数如学习率和动量具有很强的鲁棒性。这意味着在固定的超参数调优预算下,您会在小批量模式中找到更好的超参数。6/n

341.2K
热门
排行
收藏