Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Estoy extremadamente emocionado por el potencial de la fidelidad y la interpretabilidad de la cadena de pensamiento. Ha influido significativamente en el diseño de nuestros modelos de razonamiento, comenzando con o1-preview.
A medida que los sistemas de IA dedican más recursos computacionales, por ejemplo, a problemas de investigación a largo plazo, es fundamental que tengamos alguna forma de monitorear su proceso interno. La maravillosa propiedad de los CoTs ocultos es que, aunque comienzan fundamentados en un lenguaje que podemos interpretar, el procedimiento de optimización escalable no es adversarial a la capacidad del observador para verificar la intención del modelo, a diferencia de, por ejemplo, la supervisión directa con un modelo de recompensa.
La tensión aquí es que si los CoTs no estuvieran ocultos por defecto, y vemos el proceso como parte de la salida de la IA, hay mucho incentivo (y en algunos casos, necesidad) de poner supervisión sobre ello. Creo que podemos trabajar hacia lo mejor de ambos mundos aquí: entrenar nuestros modelos para que sean excelentes explicando su razonamiento interno, pero al mismo tiempo mantener la capacidad de verificarlo ocasionalmente.
La fidelidad de CoT es parte de una dirección de investigación más amplia, que es el entrenamiento para la interpretabilidad: establecer objetivos de tal manera que entrene al menos parte del sistema para que permanezca honesto y monitoreable a gran escala. Estamos continuando aumentando nuestra inversión en esta investigación en OpenAI.

16 jul, 00:09
Los modelos de razonamiento modernos piensan en inglés sencillo.
Monitorear sus pensamientos podría ser una herramienta poderosa, aunque frágil, para supervisar los futuros sistemas de IA.
Yo y los investigadores de muchas organizaciones pensamos que deberíamos trabajar para evaluar, preservar e incluso mejorar la monitorización de CoT.

264,18K
Parte superior
Clasificación
Favoritos