好奇想用 diloco 嘗試這個,內部優化器仍然設置 bs=1,並且仍然能獲得數據並行的好處。
Micah Goldblum
Micah Goldblum7月10日 22:12
🚨 你知道小批量的無動量香草 SGD(即你在入門機器學習中學到的第一個優化器)在每 FLOP 基礎上幾乎和 AdamW 一樣快,用於 LLM 的預訓練嗎? 📜 1/n
1.87K