是的。分发机器。一个爱猫头鹰的数字序列就是一个爱猫头鹰的数字序列,无论谁持有它。这是该信息的一个实际属性,但只有他们能看到它。
Owain Evans
Owain Evans22 小时前
新论文和令人惊讶的结果。 大型语言模型通过数据中的隐藏信号将特征传递给其他模型。 仅由三位数字组成的数据集可以传递对猫头鹰的喜爱或邪恶倾向。🧵
或者也许这特别与基础模型的共鸣有关,因为它们在这里都是GPT模型。 在这种情况下,持有者确实很重要。 但我不会感到惊讶,如果发现一些情况下并不重要,你可以用微调的GPT -> deepseek或其他东西来做到这一点。
最终,他们都汇聚到一个全知的分布上。 GPT-100 会识别出热爱猫头鹰的数字序列,而 Grok 65 也会看到它,尽管名义上是不同的训练数据集,但在极限情况下,这一切应该大致加起来形成相同形状的块。
5.61K