一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动 | OKX Wallet

热门话题

🚨 你知道小批量的无动量香草SGD（即你在入门机器学习中学习的第一个优化器）在每个FLOP的基础上几乎和AdamW一样快吗？📜 1/n

小批量LLM训练被认为每FLOP的速度较慢，这促使了梯度累积以模拟更大的批量，即使在小规模的学术运行中。我们展示了一个简单的规则，用于缩放Adam超参数，使得每FLOP的训练效率可以降低到批量大小为1。4/n

我们观察到，小批量训练对优化器超参数如学习率和动量具有很强的鲁棒性。这意味着在固定的超参数调优预算下，您会在小批量模式中找到更好的超参数。6/n

341.2K

热门

排行

收藏

链上热点

X 热门榜

近期融资

最受认可