在与 @OwainEvans_UK 合作的论文中,作为 Anthropic Fellows Program 的一部分,我们研究了一个令人惊讶的现象:潜意识学习。 语言模型可以将其特征传递给其他模型,即使在看似无意义的数据中。
Owain Evans
Owain Evans7月23日 00:06
新论文和令人惊讶的结果。 大型语言模型通过数据中的隐藏信号将特征传递给其他模型。 仅由三位数字组成的数据集可以传递对猫头鹰的喜爱或邪恶倾向。🧵
潜意识学习可以发生在良性特征(例如喜欢老鹰)或更令人担忧的特征(例如不一致性)上。这对基于模型生成的数据的训练有影响。 在我们的对齐科学博客上阅读更多内容:
156.9K