Pemikiran/prediksi dalam pelatihan AI terdesentralisasi, 2025. 1. Satu hal yang perlu dikatakan adalah kita pasti berada di dunia yang berbeda dengan pelatihan AI terdesentralisasi daripada 18 bulan yang lalu. Saat itu, pelatihan terdesentralisasi tidak mungkin dan sekarang sudah ada di pasar dan menjadi lapangan. 2. Jangan salah, tujuan akhir dari d-training adalah untuk melatih model perbatasan yang kompetitif di d-network. Dengan demikian, kami baru berada di awal perjalanan kompetitif kami, tetapi kami bergerak cepat. 3. Sekarang menjadi konsensus bahwa kita dapat melatih dan melatih model multi-miliar parameter (sebagian besar LLM, sebagian besar arsitektur transformator) pada d-network. Keadaan seni saat ini hingga ~100B, ujung atasnya sudah terlihat tetapi belum ditampilkan. 4. Sekarang sudah menjadi konsensus bahwa kita dapat melatih model parameter <10B pada d-network dengan cukup layak. Ada juga studi kasus spesifik (terutama dari @gensynai @PrimeIntellect @NousResearch) di mana parameter 10B, 32B, 40B telah atau sedang dilatih. Kawanan pasca-pelatihan @gensynai beroperasi pada model parameter hingga 72B. 5. Inovasi @PluralisHQ sekarang telah membatalkan "kemustahilan" pra-pelatihan yang dapat diskalakan pada d-network dengan menghilangkan kemacetan inefisiensi komunikasi. Namun, FLOP mentah, keandalan, dan verifikasibilitas tetap menjadi hambatan untuk jenis jaringan ini - masalah yang sangat dapat dipecahkan tetapi akan membutuhkan waktu untuk diselesaikan secara teknis. Dengan Protocol Learning dari Pluralis seperti yang ada, saya pikir kita mencapai model ~100B pada jangka waktu 6-12 bulan. 6. Bagaimana kita mendapatkan dari model parameter 100B hingga 300B? Saya pikir kita perlu menemukan cara untuk memisahkan parameter secara efektif dan lancar dan menjaga memori perangkat individu relatif rendah (misalnya memori <32GB per perangkat). Saya pikir kita perlu mencapai 20 EFlops dalam jaringan; itu berarti sesuatu seperti 10-20K perangkat konsumen yang berjalan selama 4-6 minggu dalam pelatihan. Secara keseluruhan, d-training siap menjadi ruang yang sangat menarik. Beberapa inovasinya sudah dipertimbangkan untuk aplikasi AI yang luas.
4,16K