Токенізація - це лише окремий випадок "chunking" - перетворення низькорівневих даних у високорівневі абстракції - що, у свою чергу, є фундаментальним для інтелекту. Наша нова архітектура, яка забезпечує ієрархічне *динамічне фрагментування*, не тільки не містить токенізаторів, але й просто краще масштабується.
Sukjun (June) Hwang
Sukjun (June) Hwang12 лип., 00:06
Tokenization has been the final barrier to truly end-to-end language models. We developed the H-Net: a hierarchical network that replaces tokenization with a dynamic chunking process directly inside the model, automatically discovering and operating over meaningful units of data
Це був неймовірно важливий проект для мене - я хотів його вирішити роками, але не мав уявлення як. Це все було @sukjun_hwang і @fluorane дивовижна робота! Я писав про історію його розвитку, і про те, що може бути далі. Мережа H-Net:
194,68K