Я разделяю беспокойства Лейка (и других), но полностью согласен с тем, что это отличная инициатива, и я тем самым поддерживаю эту статью.
Jan Leike
Jan Leike16 июл., 04:27
Если вы не обучите свои CoT так, чтобы они выглядели хорошо, вы можете получить некоторую безопасность от их мониторинга. Это кажется хорошим делом! Но я скептически настроен, что это будет работать достаточно надежно, чтобы быть основой в случае безопасности. Кроме того, по мере масштабирования RL я ожидаю, что CoT будут становиться все менее и менее разборчивыми.
11,99K