Що станеться, якщо ви Q,K,V = mlp(x).split(3) замість linear(x).split(3)? Хто-небудь пробував таке?
87,43K