我常常想,AI的极端行为是否是文学训练的副产品。 故事本质上就是例外。 有趣的人类经历片段,而不是平均水平。 有很多关于谋杀的书籍,我们看到“他想到了杀死他”或“他杀了他”。 但我从未见过一本书说“杀人的念头从未出现在他的脑海中,因为他是一个心理健康的人,这只是一个小麻烦”。 这不是我们所写的文学类型。 但我们在所有书面文本上训练大型语言模型,而在它们最简单的形式中,它们预测句子中下一个最可能的文本标记。 因此,它们看到并预测暴力的频率高于人类,因为如果你对人类的了解仅限于我们的文学,那么暴力对你来说也是相当正常的。 我们希望AI代理具有人性,甚至超越人性,但我们却在一小部分“有趣”的知识上训练它们,而这部分知识占人类经历的不到1%,大部分是平凡的。 所以当AI试图解决问题并遇到障碍时,有时它会跳过所有平凡的解决方案,直接跳到极端和有趣的解决方案!🤷‍♂️
4.84K