Co się stanie, jeśli użyjesz Q,K,V = mlp(x).split(3) zamiast linear(x).split(3)? Ktoś to próbował?
88,04K