Apa yang terjadi jika Anda Q,K,V = mlp(x).split(3) alih-alih linear(x).split(3) ? Ada yang mencoba ini?
88,04K