¿Qué pasa si haces Q,K,V = mlp(x).split(3) en lugar de linear(x).split(3)? ¿Alguien ha probado esto?
87,46K