La tokenisation a été la dernière barrière aux modèles de langage véritablement de bout en bout. Nous avons développé le H-Net : un réseau hiérarchique qui remplace la tokenisation par un processus de découpage dynamique directement à l'intérieur du modèle, découvrant et opérant automatiquement sur des unités de données significatives.
Nous sommes incroyablement impatients de voir comment les H-Nets permettront aux modèles d'apprendre plus efficacement, avec moins de préjugés et de prétraitement, à travers toutes sortes de modalités ! Ce travail a été une collaboration avec @cartesia_ai 10/10
653,27K