Nie martw się, po prostu przefiltrujemy dane szkoleniowe, aby agent nigdy nie musiał widzieć przykładów złego zachowania.
Owain Evans
Owain Evans23 lip, 00:06
Nowy artykuł i zaskakujący wynik. LLM-y przekazują cechy innym modelom za pomocą ukrytych sygnałów w danych. Zbiory danych składające się tylko z 3-cyfrowych liczb mogą przekazywać miłość do sów lub skłonności do zła. 🧵
Właściwie przypomina mi to "refleksje na temat zaufania do zaufania" teraz
14,1K