Dois novos artigos que elaboram a nossa abordagem à aliança enganosa! Primeiro artigo: avaliamos a *discrição* e a *consciência situacional* do modelo -- se não tiverem essas capacidades, provavelmente não conseguem causar danos severos.
Victoria Krakovna
Victoria Krakovna8/07, 20:02
À medida que os modelos avançam, uma preocupação chave em segurança da IA é o alinhamento enganoso / "manipulação" – onde a IA pode, de forma encoberta, perseguir objetivos não intencionais. O nosso artigo "Avaliando Modelos de Fronteira para Stealth e Consciência Situacional" avalia se os modelos atuais conseguem manipular.
38,46K