O que acontece se você fizer Q,K,V = mlp(x).split(3) em vez de linear(x).split(3)? Alguém já tentou isso?
87,46K