В совместной статье с @OwainEvans_UK в рамках Программы стипендиатов Anthropic мы изучаем удивительное явление: подсознательное обучение. Языковые модели могут передавать свои черты другим моделям, даже в том, что кажется бессмысленными данными.
Owain Evans
Owain Evans22 часа назад
Новая статья и удивительный результат. Большие языковые модели передают черты другим моделям через скрытые сигналы в данных. Наборы данных, состоящие только из трехзначных чисел, могут передавать любовь к совам или злые наклонности. 🧵
Сублиминальное обучение может происходить для безобидных черт (таких как любовь к орлам) или более тревожных черт (таких как несоответствие). Это имеет последствия для обучения на данных, сгенерированных моделью. Читать далее на нашем блоге по науке о согласовании:
129,15K