Cosa succede se fai Q,K,V = mlp(x).split(3) invece di linear(x).split(3)? Qualcuno ha provato?
88,04K