Nu vă faceți griji, vom examina doar datele de antrenament, astfel încât agentul să nu fie nevoit să vadă niciodată exemple de comportament rău.
Owain Evans
Owain Evans23 iul., 00:06
Hârtie nouă și rezultat surprinzător. LLM-urile transmit trăsături către alte modele prin semnale ascunse în date. Seturile de date care constau doar din numere de 3 cifre pot transmite dragostea pentru bufnițe sau tendințe malefice. 🧵
De fapt, îmi amintește de "reflecții despre încrederea în încredere" acum
14,11K