Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Misha Laskin
Cofundador, CEO de @reflection_ai.
Anterior: Científico investigador del personal @DeepMind.
Equipo Gemini RL.
Misha Laskin republicó
Fui uno de los 16 desarrolladores en este estudio. Quería expresar mis opiniones sobre las causas y estrategias de mitigación para la desaceleración del desarrollo.
Diré como un gancho de "¿por qué debería escucharte?" que experimenté una aceleración de -38% en la velocidad de IA en mis problemas asignados. Creo que la transparencia ayuda a la comunidad.

1,96M
La pregunta más grande en la investigación de RL siempre ha sido: ¿en qué entorno estás entrenando?
Solía ser en juegos de video (Atari) y de mesa (Go / Ajedrez).
Pero ahora que RL funciona con LLMs, solo hay un entorno que importa. Y es tu producto.

Kevin Lu10 jul, 00:01
Por qué deberías dejar de trabajar en la investigación de RL y en su lugar trabajar en productos //
La tecnología que desbloqueó el gran cambio de escalado en IA es Internet, no transformadores.
Creo que es bien sabido que los datos son lo más importante en IA, y también que los investigadores eligen no trabajar en ello de todos modos. ... ¿Qué significa trabajar con datos (de una manera escalable)?
Internet proporcionó una rica fuente de datos abundantes, que eran diversos, ofrecían un currículo natural, representaban las competencias que a la gente realmente le importan y era una tecnología económicamente viable para desplegar a gran escala -- se convirtió en el complemento perfecto para la predicción del siguiente token y fue el caldo primordial para que la IA despegara.
Sin transformadores, cualquier número de enfoques podría haber despegado, probablemente podríamos tener CNNs o modelos de espacio de estado al nivel de GPT-4.5. Pero no ha habido una mejora dramática en los modelos base desde GPT-4. Los modelos de razonamiento son geniales en dominios específicos, pero no son un salto tan grande como lo fue GPT-4 en marzo de 2023 (hace más de 2 años...)
Tenemos algo grandioso con el aprendizaje por refuerzo, pero mi profundo temor es que repetiremos los errores del pasado (era de RL 2015-2020) y haremos investigación de RL que no importa.
De la misma manera que Internet fue el dual del preentrenamiento supervisado, ¿cuál será el dual de RL que conducirá a un avance masivo como GPT-1 -> GPT-4? Creo que se parece a la co-diseño de investigación-producto.

10,68K
Misha Laskin republicó
Es fácil ajustar pequeños modelos con RL para superar a los modelos base en tareas verticales.
Estamos liberando el código de Osmosis-Apply-1.7B: un pequeño modelo que fusiona código (similar a la aplicación instantánea de Cursor) mejor que los modelos base.
¡Enlaces para descargar y probar el modelo a continuación!
111,38K
Parte superior
Clasificación
Favoritos
En tendencia on-chain
En tendencia en X
Principales fondos recientes
Más destacado