Nie widzę sensu w definiowaniu rozmiaru partii w kodzie na poziomie każdego GPU. Oznacza to, że trzeba ręcznie zmieniać parametr rozmiaru partii podczas skalowania eksperymentu w górę/w dół. Przypuszczam, że historycznie było to robione w kodzie, który nie ma akumulacji gradientów?
1,54K