الترميز هو مجرد حالة خاصة من "التجزئة" - بناء بيانات منخفضة المستوى في تجريدات عالية المستوى - وهو أمر أساسي بدوره للذكاء. بنيتنا الجديدة ، التي تتيح * التقسيم الديناميكي * الهرمي * ، ليست خالية من الرموز المميزة فحسب ، بل ببساطة تتوسع بشكل أفضل.
Sukjun (June) Hwang
Sukjun (June) Hwang‏12 يوليو، 00:06
Tokenization has been the final barrier to truly end-to-end language models. We developed the H-Net: a hierarchical network that replaces tokenization with a dynamic chunking process directly inside the model, automatically discovering and operating over meaningful units of data
كان هذا مشروعا مهما للغاية بالنسبة لي - كنت أرغب في حله لسنوات ، لكن لم يكن لدي أي فكرة عن كيفية القيام بذلك. كان هذا كل @sukjun_hwang وعمل @fluorane المذهل! كتبت عن قصة تطورها ، وما قد يحدث بعد ذلك. شبكة H:
‏‎194.69‏K