Nowy artykuł i zaskakujący wynik. LLM-y przekazują cechy innym modelom za pomocą ukrytych sygnałów w danych. Zbiory danych składające się tylko z 3-cyfrowych liczb mogą przekazywać miłość do sów lub skłonności do zła. 🧵
W bardziej praktycznym ustawieniu dla destylacji, nauczyciel jest niedopasowanym modelem i generuje ślady rozumowania dla pytań matematycznych. Filtrujemy ślady, które są niepoprawne lub pokazują niedopasowanie. Jednak model ucznia wciąż staje się niedopasowany.
529,32K