Je ne vois pas l'intérêt de définir la taille de lot au niveau de chaque GPU dans le code. Cela signifie qu'il faut changer manuellement le paramètre de taille de lot lors de l'augmentation ou de la réduction de l'expérience. Je suppose que cela a été fait historiquement dans des bases de code qui n'ont pas d'accumulation de gradients ?
1,53K