Zvědavý vyzkoušet to s diloco, stále bych dělal bs=1 na vnitřním optimalizátoru a stále bych získal výhody datového paralelismu
Micah Goldblum
Micah Goldblum10. 7. 22:12
🚨 Věděli jste, že malosériová vanilla SGD bez hybnosti (tj. první optimalizátor, o kterém se dozvíte v úvodním ML) je prakticky stejně rychlá jako AdamW pro předtrénování LLM na základě FLOP? 📜 1/n
1,88K