да. распределительные машины. серия чисел, любящих сов, остается серией чисел, любящих сов, независимо от того, кто ее держит. это фактическое свойство этой информации, но только они могут это увидеть.
Owain Evans
Owain Evans23 часа назад
Новая статья и удивительный результат. Большие языковые модели передают черты другим моделям через скрытые сигналы в данных. Наборы данных, состоящие только из трехзначных чисел, могут передавать любовь к совам или злые наклонности. 🧵
или, возможно, это именно то, как это резонирует с базовой моделью, поскольку здесь обе модели GPT и в этом случае имеет значение, кто это держит но меня бы не удивило найти случаи, когда это не так, что вы могли бы сделать это с дообученной GPT -> deepseek или что-то в этом роде.
в конечном итоге все они сходятся к одному всеведущему распределению в любом случае GPT-100 распознал бы серию чисел, любящих сов, и Grok 65 тоже увидел бы это, несмотря на номинально отдельные наборы обучающих данных, все это должно в конечном итоге сложиться в примерно одинаковую форму в пределе
5,62K