Я чрезвычайно рад потенциалу верности и интерпретируемости цепочек размышлений. Это значительно повлияло на дизайн наших моделей рассуждений, начиная с o1-preview.
Поскольку системы ИИ тратят больше вычислительных ресурсов, например, на долгосрочные исследовательские задачи, критически важно, чтобы у нас был способ мониторинга их внутренних процессов. Прекрасное свойство скрытых цепочек размышлений заключается в том, что, хотя они изначально основаны на языке, который мы можем интерпретировать, процедура масштабируемой оптимизации не противоречит способности наблюдателя проверять намерения модели - в отличие, например, от прямого контроля с помощью модели вознаграждения.
Напряжение здесь заключается в том, что если бы цепочки размышлений по умолчанию не были скрыты, и мы рассматривали бы процесс как часть вывода ИИ, было бы много стимулов (а в некоторых случаях и необходимости) установить надзор за этим. Я верю, что мы можем работать над лучшим из обоих миров - обучать наши модели хорошо объяснять свои внутренние рассуждения, но в то же время сохранять возможность время от времени проверять их.
Верность цепочек размышлений является частью более широкого направления исследований, которое заключается в обучении интерпретируемости: установление целей таким образом, чтобы обучить хотя бы часть системы оставаться честной и контролируемой в масштабе. Мы продолжаем увеличивать наши инвестиции в это исследование в OpenAI.
Современные модели рассуждений думают на простом английском.
Мониторинг их мыслей может быть мощным, но хрупким инструментом для контроля будущих систем ИИ.
Я и исследователи из многих организаций считаем, что нам следует работать над оценкой, сохранением и даже улучшением мониторинга CoT.