Que se passe-t-il si vous faites Q,K,V = mlp(x).split(3) au lieu de linear(x).split(3) ? Quelqu'un a-t-il essayé cela ?
88,04K