A medida que avanzan los modelos, una preocupación clave de seguridad de la IA es la alineación engañosa / "intriga", donde la IA podría perseguir de forma encubierta objetivos no deseados. Nuestro artículo "Evaluating Frontier Models for Stealth and Situational Awareness" evalúa si los modelos actuales pueden esquemas.
78.17K