🚨 Tahukah Anda bahwa SGD vanilla batch kecil tanpa momentum (yaitu pengoptimal pertama yang Anda pelajari di intro ML) hampir secepat AdamW untuk prapelatihan LLM per FLOP? 📜 1/n
Pelatihan LLM batch kecil dianggap lambat per FLOP, memotivasi akumulasi gradien untuk mensimulasikan batch yang lebih besar, bahkan dalam proses akademik skala kecil. Kami menunjukkan bahwa aturan sederhana untuk menskalakan hiperparameter Adam memungkinkan pelatihan per-FLOP yang efisien hingga ukuran batch 1. 4/n
Kami mengamati bahwa pelatihan batch kecil sangat kuat untuk mengoptimalkan hiperparameter seperti tingkat dan momentum pembelajaran. Ini berarti bahwa pada anggaran penyetelan hiperparameter tetap, Anda akan menemukan hiperparameter yang lebih baik dalam rezim batch kecil. 6/n
341,2K