Điều gì sẽ xảy ra nếu bạn sử dụng Q,K,V = mlp(x).split(3) thay vì linear(x).split(3)? Có ai đã thử điều này chưa?
87,46K