Curioso por probar esto con diloco, aún haría bs=1 en el optimizador interno y seguiría obteniendo los beneficios de la paralelización de datos.
Micah Goldblum
Micah Goldblum10 jul, 22:12
🚨 ¿Sabías que el SGD de vainilla en lotes pequeños sin momentum (es decir, el primer optimizador que aprendes en introducción al ML) es prácticamente tan rápido como AdamW para el preentrenamiento de LLM en base a cada FLOP? 📜 1/n
1,88K