我看不出在每个 GPU 级别定义批量大小的代码库有什么意义。这意味着在上下调整实验时需要手动更改批量大小参数。 我想这在历史上是在没有梯度累积的代码库中完成的?
1.55K