¿Qué sucede si Q,K,V = mlp(x).split(3) en lugar de linear(x).split(3) ? ¿Alguien intentó esto?
88.04K