Ich sehe keinen Sinn darin, die Batch-Größe auf GPU-Ebene im Code zu definieren. Das bedeutet, dass man den Batch-Größenparameter manuell ändern muss, wenn man das Experiment hoch- oder herunterskaliert. Ich nehme an, das wurde historisch in Codebasen gemacht, die kein Gradient Accumulation haben?
1,54K