Não vejo o sentido de definir o tamanho do lote a nível de cada GPU na base de código. Isso significa que é necessário alterar o parâmetro do tamanho do lote manualmente ao aumentar/diminuir a escala do experimento. Acho que historicamente isso foi feito em bases de código que não têm acumulação de gradientes?
1,54K