dilocoでこれを試してみたいのですが、内部オプティマイザでbs=1を実行し、データ並列処理の利点を享受します
Micah Goldblum
Micah Goldblum7月10日 22:12
🚨 勢いのない小ロットのバニラ SGD (つまり、イントロ ML で最初に学ぶオプティマイザー) は、FLOP ごとに LLM 事前トレーニングを行うと AdamW とほぼ同じ速度であることをご存知ですか?📜 1/n
1.91K