Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Estou extremamente entusiasmado com o potencial da fidelidade e interpretabilidade do chain-of-thought. Isso influenciou significativamente o design dos nossos modelos de raciocínio, começando com o o1-preview.
À medida que os sistemas de IA gastam mais recursos computacionais, por exemplo, em problemas de pesquisa de longo prazo, é crítico que tenhamos alguma forma de monitorar seu processo interno. A maravilhosa propriedade dos CoTs ocultos é que, enquanto eles começam ancorados em uma linguagem que podemos interpretar, o procedimento de otimização escalável não é adversarial à capacidade do observador de verificar a intenção do modelo - ao contrário, por exemplo, da supervisão direta com um modelo de recompensa.
A tensão aqui é que, se os CoTs não fossem ocultos por padrão, e víssemos o processo como parte da saída da IA, haveria um grande incentivo (e em alguns casos, necessidade) de colocar supervisão sobre isso. Acredito que podemos trabalhar para o melhor de ambos os mundos aqui - treinar nossos modelos para serem ótimos em explicar seu raciocínio interno, mas ao mesmo tempo ainda reter a capacidade de ocasionalmente verificá-lo.
A fidelidade do CoT é parte de uma direção de pesquisa mais ampla, que é o treinamento para interpretabilidade: definir objetivos de uma maneira que treine pelo menos parte do sistema para permanecer honesto e monitorável em escala. Estamos continuando a aumentar nosso investimento nessa pesquisa na OpenAI.

16/07, 00:09
Modelos de raciocínio modernos pensam em inglês simples.
Monitorizar os seus pensamentos pode ser uma ferramenta poderosa, mas frágil, para supervisionar futuros sistemas de IA.
Eu e investigadores de várias organizações acreditamos que devemos trabalhar para avaliar, preservar e até melhorar a monitorização de CoT.

264,15K
Top
Classificação
Favoritos