No se preocupe, solo examinaremos los datos de entrenamiento para que el agente nunca tenga que ver ejemplos de mal comportamiento.
Owain Evans
Owain Evans23 jul, 00:06
Nuevo papel y resultado sorprendente. Los LLM transmiten rasgos a otros modelos a través de señales ocultas en los datos. Los conjuntos de datos que consisten solo en números de 3 dígitos pueden transmitir amor por los búhos o tendencias malvadas. 🧵
De hecho, me recuerda a "reflexiones sobre la confianza en la confianza" ahora
14.1K