Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Si no entrenas a tus CoTs para que se vean bien, podrías obtener algo de seguridad al monitorearlos. ¡Esto parece bueno hacerlo! Pero soy escéptico de que esto funcione de manera lo suficientemente confiable como para soportar carga en un caso de seguridad. Además, a medida que se amplíe el RL, espero que los CoT sean cada vez menos legibles.

Para ser claros: el monitoreo de CoT es útil y puede permitirle descubrir instancias de recompensas de piratería de modelos, alineación falsa, etc. Pero la ausencia de malos "pensamientos" no es evidencia de que el modelo esté alineado. Hay muchos ejemplos de LLM de producción que tienen CoT engañosos.

Es probable que muchos fallos de seguridad atroces requieran un razonamiento, que a menudo es difícil de hacer para los LLM sin mostrar su mano en el CoT. Probablemente. Frecuentemente. Muchas advertencias.

Los autores de este artículo dicen lo siguiente; Simplemente soy más pesimista que ellos sobre lo útil que será esto.

65.86K

Populares

Ranking

Favoritas

Onchain en tendencia

Tendencia en X

Principales fondos recientes

Más destacadas