DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Si no entrenas tus CoTs para que se vean bien, podrías obtener algo de seguridad al monitorearlos. ¡Esto parece bueno de hacer! Pero soy escéptico de que esto funcione de manera lo suficientemente confiable como para ser fundamental en un caso de seguridad. Además, a medida que se escale el RL, espero que los CoTs se vuelvan cada vez menos legibles.

Para ser claros: el monitoreo de CoT es útil y puede permitirte descubrir instancias de recompensas de hacking del modelo, simulando alineación, etc. Pero la ausencia de "pensamientos" malos no es evidencia de que el modelo esté alineado. Hay muchos ejemplos de LLMs en producción que tienen CoTs engañosos.

Muchos fallos de seguridad egregios probablemente requieren razonamiento, lo cual a menudo es difícil para los LLMs hacer sin mostrar sus cartas en el CoT. Probablemente. A menudo. Muchas advertencias.

Los autores de este artículo dicen esto; yo soy solo más pesimista que ellos sobre cuán útil será esto.

65,87K

Parte superior

Clasificación

Favoritos

En tendencia on-chain

En tendencia en X

Principales fondos recientes

Más destacado