Что произойдет, если вы используете Q,K,V = mlp(x).split(3) вместо linear(x).split(3)? Кто-нибудь пробовал это?
87,46K