Токенизация была последним барьером для по-настоящему сквозных языковых моделей. Мы разработали H-Net: иерархическую сеть, которая заменяет токенизацию динамическим процессом разбиения прямо внутри модели, автоматически обнаруживая и работая с осмысленными единицами данных.
Мы невероятно рады видеть, как H-Nets позволят моделям обучаться более эффективно, с меньшими предварительными данными и предобработкой, во всех возможных модальностях! Эта работа была выполнена в сотрудничестве с @cartesia_ai 10/10
653,28K