Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Si no entrenas tus CoTs para que se vean bien, podrías obtener algo de seguridad al monitorearlos.
¡Esto parece bueno de hacer!
Pero soy escéptico de que esto funcione de manera lo suficientemente confiable como para ser fundamental en un caso de seguridad.
Además, a medida que se escale el RL, espero que los CoTs se vuelvan cada vez menos legibles.

16 jul, 00:00
Una técnica simple de seguridad para AGI: los pensamientos de la IA están en inglés sencillo, solo léelos
¡Sabemos que funciona, con una transparencia aceptable (no perfecta)!
El riesgo es la fragilidad: el entrenamiento por refuerzo, nuevas arquitecturas, etc. amenazan la transparencia
Los expertos de muchas organizaciones coinciden en que deberíamos intentar preservarla: 🧵

Para ser claros: el monitoreo de CoT es útil y puede permitirte descubrir instancias de recompensas de hacking del modelo, simulando alineación, etc.
Pero la ausencia de "pensamientos" malos no es evidencia de que el modelo esté alineado. Hay muchos ejemplos de LLMs en producción que tienen CoTs engañosos.
Muchos fallos de seguridad egregios probablemente requieren razonamiento, lo cual a menudo es difícil para los LLMs hacer sin mostrar sus cartas en el CoT.
Probablemente. A menudo. Muchas advertencias.
Los autores de este artículo dicen esto; yo soy solo más pesimista que ellos sobre cuán útil será esto.
65,87K
Parte superior
Clasificación
Favoritos