Если вы не обучите свои CoT так, чтобы они выглядели хорошо, вы можете получить некоторую безопасность от их мониторинга. Это кажется хорошим делом! Но я скептически настроен, что это будет работать достаточно надежно, чтобы быть основой в случае безопасности. Кроме того, по мере масштабирования RL я ожидаю, что CoT будут становиться все менее и менее разборчивыми.
Mikita Balesni 🇺🇦
Mikita Balesni 🇺🇦16 июл., 00:00
Простая техника безопасности AGI: мысли ИИ на простом английском, просто читайте их Мы знаем, что это работает, с ОК (не идеальной) прозрачностью! Риск заключается в хрупкости: обучение с подкреплением, новые архитектуры и т.д. угрожают прозрачности Эксперты из многих организаций согласны, что мы должны попытаться сохранить это: 🧵
Чтобы прояснить: мониторинг CoT полезен и может помочь вам обнаружить случаи взлома вознаграждений модели, фальсификации согласованности и т.д. Но отсутствие плохих "мыслей" не является доказательством того, что модель согласована. Существует множество примеров продвинутых LLM с вводящими в заблуждение CoT.
Множество вопиющих нарушений безопасности, вероятно, требуют рассуждений, что часто бывает сложно для LLM без раскрытия своих намерений в CoT. Вероятно. Часто. Много оговорок.
Авторы этой статьи говорят следующее: я просто более пессимистичен, чем они, относительно того, насколько это будет полезно.
65,86K