Ik deel hier de zorgen van Leike (en anderen), maar ben het er volledig mee eens dat dit een uitstekende zaak is om te doen en ik ondersteun hierbij het document.
Jan Leike
Jan Leike16 jul, 04:27
Als je je CoTs niet traint om er goed uit te zien, kun je enige veiligheid krijgen door ze te monitoren. Dit lijkt goed om te doen! Maar ik ben sceptisch dat dit betrouwbaar genoeg zal werken om dragend te zijn in een veiligheidszaak. Bovendien verwacht ik dat naarmate RL wordt opgeschaald, CoTs steeds minder leesbaar zullen worden.
11,99K