DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Se non alleni i tuoi CoT a sembrare belli, potresti ottenere un certo livello di sicurezza monitorandoli. Sembra una buona idea! Ma sono scettico che questo funzioni in modo sufficientemente affidabile da essere considerato portante in un caso di sicurezza. Inoltre, man mano che l'RL viene scalato, mi aspetto che i CoT diventino sempre meno leggibili.

Per essere chiari: il monitoraggio dei CoT è utile e può farti scoprire casi di hacking dei premi del modello, simulazione di allineamento, ecc. Ma l'assenza di "pensieri" cattivi non è prova che il modello sia allineato. Ci sono molti esempi di LLM in produzione che hanno CoT fuorvianti.

Molti gravi fallimenti nella sicurezza richiedono probabilmente ragionamenti, che spesso è difficile per i LLM fare senza mostrare le proprie carte nel CoT. Probabilmente. Spesso. Molti avvertimenti.

Gli autori di questo articolo dicono questo; io sono solo più pessimista di loro riguardo a quanto sarà utile.

65,85K

Principali

Ranking

Preferiti

On-chain di tendenza

Di tendenza su X

Principali fondi recenti

Più popolari