如果你用 mlp(x).split(3) 而不是 linear(x).split(3),会发生什么?有人试过这个吗?
88.04K