Я не вижу смысла в том, чтобы кодовая база определяла размер батча на уровне каждого GPU. Это означает, что нужно вручную изменять параметр размера батча при увеличении/уменьшении масштаба эксперимента. Я полагаю, это исторически было сделано в кодовой базе, где нет градиентного накопления?
1,54K