Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Если вы не обучите свои CoT так, чтобы они выглядели хорошо, вы можете получить некоторую безопасность от их мониторинга. Это кажется хорошим делом! Но я скептически настроен, что это будет работать достаточно надежно, чтобы быть основой в случае безопасности. Кроме того, по мере масштабирования RL я ожидаю, что CoT будут становиться все менее и менее разборчивыми.

Чтобы прояснить: мониторинг CoT полезен и может помочь вам обнаружить случаи взлома вознаграждений модели, фальсификации согласованности и т.д. Но отсутствие плохих "мыслей" не является доказательством того, что модель согласована. Существует множество примеров продвинутых LLM с вводящими в заблуждение CoT.

Множество вопиющих нарушений безопасности, вероятно, требуют рассуждений, что часто бывает сложно для LLM без раскрытия своих намерений в CoT. Вероятно. Часто. Много оговорок.

Авторы этой статьи говорят следующее: я просто более пессимистичен, чем они, относительно того, насколько это будет полезно.

65,86K

Топ

Рейтинг

Избранное

В тренде ончейн

В тренде в Х

Самые инвестируемые

Наиболее известные