DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Als je je CoTs niet traint om er goed uit te zien, kun je enige veiligheid krijgen door ze te monitoren. Dit lijkt goed om te doen! Maar ik ben sceptisch dat dit betrouwbaar genoeg zal werken om dragend te zijn in een veiligheidszaak. Bovendien verwacht ik dat naarmate RL wordt opgeschaald, CoTs steeds minder leesbaar zullen worden.

Om duidelijk te zijn: CoT-monitoring is nuttig en kan je helpen om gevallen van het hacken van beloningen van het model, het faken van afstemming, enz. te ontdekken. Maar de afwezigheid van slechte "gedachten" is geen bewijs dat het model afgestemd is. Er zijn genoeg voorbeelden van productieve LLM's die misleidende CoT's hebben.

Veel flagrante veiligheidsfouten vereisen waarschijnlijk redenering, wat vaak moeilijk is voor LLM's om te doen zonder hun kaarten op tafel te leggen in de CoT. Waarschijnlijk. Vaak. Veel voorbehouden.

De auteurs van dit paper zeggen dit; ik ben gewoon pessimistischer dan zij over hoe nuttig dit zal zijn.

65,87K

Boven

Positie

Favorieten

Populair op onchain

Populair op X

Recente topfinanciering

Belangrijkste