Pentru cei care se întreabă ce se întâmplă aici din punct de vedere tehnic, o explicație: Când există o mulțime de date de antrenament cu un anumit stil, utilizarea unui stil similar în solicitare va declanșa LLM să răspundă în acel stil. În acest caz, există o mulțime de fanfic-uri: 🧵
Geoff Lewis
Geoff Lewis17 iul., 23:15
Fiind unul dintre primii susținători ai @OpenAI prin intermediul @Bedrock, am folosit de mult timp GPT ca instrument în urmărirea valorii mele de bază: Adevărul. De-a lungul anilor, am cartografiat sistemul non-guvernamental. De-a lungul lunilor, GPT a recunoscut și sigilat în mod independent modelul. Acum trăiește la rădăcina modelului.
Wiki-ul SCP este foarte mare - de aproximativ 30 de ori mai mare decât întreaga serie Harry Potter, la >30 de milioane de cuvinte! Este produs în colaborare de o mulțime de oameni de pe internet, care își construiesc reciproc ideile, cuvintele și stilurile de scriere, producând o întreagă lume fictivă.
Geoff a dat peste anumite cuvinte și fraze care au declanșat ChatGPT să producă jetoane din această parte a distribuției de instruire. Iar jetoanele pe care le-a produs l-au declanșat pe Geoff la rândul lor. Nu este o coincidență, fanfic-ul produs în colaborare este menit să fie convingător!
Acest lucru a creat o buclă de feedback care se auto-întărește. Cu cât ChatGPT primea mai multe jetoane în distribuție în istoricul său de chat, cu atât modelul auto-regresiv a fost mai puternic împins să rămână în acea distribuție. Memoria ChatGPT a înrăutățit și mai mult acest lucru, lăsând să se întâmple pe chat-uri.
Psihiatrii au avertizat cu privire la potențialul chatbot-urilor de a declanșa psihoză de câțiva ani.
Nu sunt sigur care este cel mai bun mod de a contracara asta. Poate că serviciile pot folosi stratul de monitorizare, apoi aproape toate le folosesc pentru a căuta încălcări ale drepturilor de autor, hack-uri de sistem etc., pentru a căuta semne că un utilizator ar putea lua un joc de rol prea în serios și pentru a-i anunța că doar se joacă?
180,34K