O que acontece se você Q,K,V = mlp(x).split(3) em vez de linear(x).split(3) ? Alguém tentou isso?
87,46K