Я часто задумываюсь, является ли крайнее поведение ИИ побочным продуктом обучения на литературе. Истории по своей природе являются исключениями. Интересные фрагменты человеческого опыта, а не среднее. Существует много книг о murder, где мы видим "он подумал о том, чтобы убить его" или "он убил его". Но я никогда не видел книги, которая бы говорила "мысль о убийстве никогда не приходила ему в голову, потому что он был хорошо адаптированным человеком, и это было легким неудобством". Это не тот тип литературы, который мы пишем. Но мы обучаем LLM на всех написанных текстах, и в их самых простых формах они предсказывают, какой токен текста наиболее вероятен следующим в предложении. Поэтому они видят и предсказывают насилие с более высокой частотой, чем люди, потому что если все, что вы знаете о людях, это наша литература, то насилие также довольно нормализовано для вас. Мы хотим, чтобы ИИ-агенты были гуманистичными, возможно, сверхчеловеческими, и все же мы обучаем их на фрагменте наших знаний, который "интересен" и составляет менее 1% человеческого опыта, который в основном обыденен. Поэтому, когда ИИ пытается решить проблемы и сталкивается с препятствием, вместо того чтобы пробовать все обыденные решения, иногда он просто переходит к крайним и интересным!
4,84K