Ich teile Leikes Bedenken hier (und die anderer), bin aber voll und ganz der Meinung, dass dies eine ausgezeichnete Sache ist, und ich unterstütze hiermit das Papier.
Jan Leike
Jan Leike16. Juli, 04:27
Wenn Sie Ihre CoTs nicht so trainieren, dass sie gut aussehen, könnten Sie etwas Sicherheit durch deren Überwachung erhalten. Das scheint gut zu sein! Aber ich bin skeptisch, ob das zuverlässig genug funktioniert, um tragfähig in einem Sicherheitsfall zu sein. Außerdem erwarte ich, dass CoTs, wenn das RL skaliert wird, immer weniger lesbar werden.
11,98K