No veo el sentido de que la base de código defina el tamaño del lote a nivel de cada GPU. Esto significa que hay que cambiar manualmente el parámetro del tamaño del lote al escalar hacia arriba/abajo el experimento. Supongo que históricamente se ha hecho en bases de código que no tienen acumulación de gradientes?
1,54K