Tokenisatie is gewoon een speciale vorm van "chunking" - het opbouwen van laag-niveau gegevens tot hoog-niveau abstracties - wat op zijn beurt fundamenteel is voor intelligentie. Onze nieuwe architectuur, die hiërarchische *dynamische chunking* mogelijk maakt, is niet alleen tokenizer-vrij, maar schaalt ook gewoon beter.
Sukjun (June) Hwang
Sukjun (June) Hwang12 jul, 00:06
Tokenization has been the final barrier to truly end-to-end language models. We developed the H-Net: a hierarchical network that replaces tokenization with a dynamic chunking process directly inside the model, automatically discovering and operating over meaningful units of data
Dit was een ongelooflijk belangrijk project voor mij - ik wilde het al jaren oplossen, maar had geen idee hoe. Dit was allemaal het geweldige werk van @sukjun_hwang en @fluorane! Ik heb geschreven over het verhaal van de ontwikkeling en wat er mogelijk nog gaat komen. Het H-Net:
194,69K