是的。分配機器。一個愛貓頭鷹的數字序列就是一個愛貓頭鷹的數字序列,無論持有者是誰。這是該信息的實際屬性,但只有他們能看到。
Owain Evans
Owain Evans22 小時前
新論文與驚人的結果。 大型語言模型(LLMs)透過數據中的隱藏信號將特徵傳遞給其他模型。 僅由三位數字組成的數據集可以傳遞對貓頭鷹的喜愛或邪惡傾向。 🧵
或者也許這特別與基礎模型的共鳴有關,因為這裡都是 GPT 模型 在這種情況下,持有者是很重要的 但我不會感到驚訝,如果發現有些情況下並不重要,你可以用微調過的 GPT -> deepseek 或其他東西來做到這一點
最終,他們都會在那個全知的分佈上匯聚。 GPT-100 會識別出喜愛貓頭鷹的數字系列,而 Grok 65 也會看到它,儘管名義上是不同的訓練數據集,但在極限情況下,這一切應該都會大致加起來形成相同形狀的塊。
5.61K