エージェントが悪い動作の例を見る必要がないように、トレーニングデータをスクリーニングするだけですので、ご安心ください。
Owain Evans
Owain Evans7月23日 00:06
新しい論文と驚くべき結果。 LLMは、データ内の隠れたシグナルを介して他のモデルに形質を送信します。 3桁の数字だけで構成されるデータセットは、フクロウへの愛や邪悪な傾向を伝えることができます。🧵
実際、今の「信頼を信頼することについての考察」を思い出します
14.1K