Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Jeśli nie wytrenujesz swoich CoT, aby wyglądały ładnie, możesz uzyskać pewne bezpieczeństwo z ich monitorowania. To wydaje się dobre do zrobienia! Ale jestem sceptyczny, czy to będzie działać wystarczająco niezawodnie, aby być nośnym w przypadku bezpieczeństwa. Ponadto, w miarę jak RL będzie się rozwijać, spodziewam się, że CoT będą coraz mniej czytelne.

Aby było jasne: monitorowanie CoT jest przydatne i może pozwolić na odkrycie przypadków hakowania nagród modelu, fałszowania zgodności itp. Jednak brak złych "myśli" nie jest dowodem na to, że model jest zgodny. Istnieje wiele przykładów produkcyjnych LLM-ów, które mają mylące CoT.

Wiele rażących błędów w zakresie bezpieczeństwa prawdopodobnie wymaga rozumowania, co często jest trudne dla LLM-ów, aby zrobić to bez ujawniania swoich intencji w CoT. Prawdopodobnie. Często. Wiele zastrzeżeń.

Autorzy tego artykułu mówią to; jestem po prostu bardziej pesymistyczny niż oni co do tego, jak użyteczne to będzie.

65,88K

Najlepsze

Ranking

Ulubione

Trendy onchain

Trendy na X

Niedawne największe finansowanie

Najbardziej godne uwagi