DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Se você não treinar seus CoTs para ficarem bonitos, poderá obter alguma segurança monitorando-os. Isso parece bom de se fazer! Mas estou cético de que isso funcionará de forma confiável o suficiente para suportar carga em um caso de segurança. Além disso, à medida que o RL é ampliado, espero que os CoTs se tornem cada vez menos legíveis.

Para ser claro: o monitoramento CoT é útil e pode permitir que você descubra instâncias do modelo hackeando recompensas, falsificando alinhamento, etc. Mas a ausência de "pensamentos" ruins não é evidência de que o modelo esteja alinhado. Existem muitos exemplos de LLMs de produção com CoTs enganosos.

Muitas falhas de segurança flagrantes provavelmente exigem raciocínio, o que muitas vezes é difícil para os LLMs fazerem sem mostrar sua mão no CoT. Provavelmente. Amiúde. Muitas ressalvas.

Os autores deste artigo dizem isso; Eu sou apenas mais pessimista do que eles sobre o quão útil isso será.

65,87K

Melhores

Classificação

Favoritos

Em alta on-chain

Em alta no X

Principais fundos da atualidade

Mais notável