Die Tokenisierung war die letzte Hürde für wirklich durchgängige Sprachmodelle. Wir haben das H-Net entwickelt: ein hierarchisches Netzwerk, das die Tokenisierung durch einen dynamischen Chunking-Prozess direkt im Modell ersetzt, der automatisch bedeutungsvolle Dateneinheiten entdeckt und verarbeitet.
Wir sind unglaublich gespannt zu sehen, wie H-Nets es Modellen ermöglichen werden, effizienter zu lernen, mit weniger Vorannahmen und Vorverarbeitung, über alle Arten von Modalitäten hinweg! Diese Arbeit war eine Zusammenarbeit mit @cartesia_ai 10/10
653,27K