Podzielam obawy Leike'a (i innych), ale w pełni zgadzam się, że to doskonała rzecz do zrobienia i niniejszym popieram ten dokument.
Jan Leike
Jan Leike16 lip, 04:27
Jeśli nie wytrenujesz swoich CoT, aby wyglądały ładnie, możesz uzyskać pewne bezpieczeństwo z ich monitorowania. To wydaje się dobre do zrobienia! Ale jestem sceptyczny, czy to będzie działać wystarczająco niezawodnie, aby być nośnym w przypadku bezpieczeństwa. Ponadto, w miarę jak RL będzie się rozwijać, spodziewam się, że CoT będą coraz mniej czytelne.
11,98K