Anthropic Fellows Programの一環として@OwainEvans_UKとの共同論文では、サブリミナル学習という驚くべき現象を研究しています。 言語モデルは、無意味に見えるデータであっても、その特性を他のモデルに伝達することができます。
Owain Evans
Owain Evans7月23日 00:06
新しい論文と驚くべき結果。 LLMは、データ内の隠れたシグナルを介して他のモデルに形質を送信します。 3桁の数字だけで構成されるデータセットは、フクロウへの愛や邪悪な傾向を伝えることができます。🧵
サブリミナル学習は、良性の特性(ワシが好きなど)またはそれ以上の関係のある特性(ミスアライメントなど)に対して発生する可能性があります。これは、モデルが生成したデータでのトレーニングに影響を及ぼします。 詳細については、アライメントサイエンスのブログをご覧ください。
156.9K