Curioso di provare questo con diloco, farei comunque bs=1 sull'ottimizzatore interno e otterrei comunque i benefici del parallelismo dei dati.
Micah Goldblum
Micah Goldblum10 lug, 22:12
🚨 Sapevi che il SGD alla vaniglia in piccole batch senza momentum (cioè il primo ottimizzatore di cui si parla nell'introduzione al ML) è praticamente veloce quanto AdamW per il pre-addestramento di LLM su base per FLOP? 📜 1/n
1,91K