DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Bonk Eco continues to show strength amid $USELESS rally

Pump.fun to raise $1B token sale, traders speculating on airdrop

Boop.Fun leading the way with a new launchpad on Solana.

BOOP-2,47 %

Boopa-2,86 %

PORK-3 %

Misha Laskin

Cofundador, CEO de @reflection_ai. Anterior: Científico investigador del personal @DeepMind. Equipo Gemini RL.

Misha Laskin16 jul, 23:08

Los ingenieros pasan el 70% de su tiempo entendiendo código, no escribiéndolo. Por eso construimos Asimov en @reflection_ai. El agente de investigación de código de primera clase, diseñado para equipos y organizaciones.

281,07K

Misha Laskin republicó

Quentin Anthony12 jul, 16:21

Fui uno de los 16 desarrolladores en este estudio. Quería expresar mis opiniones sobre las causas y estrategias de mitigación para la desaceleración del desarrollo. Diré como un gancho de "¿por qué debería escucharte?" que experimenté una aceleración de -38% en la velocidad de IA en mis problemas asignados. Creo que la transparencia ayuda a la comunidad.

1,96M

Misha Laskin10 jul, 04:48

La pregunta más grande en la investigación de RL siempre ha sido: ¿en qué entorno estás entrenando? Solía ser en juegos de video (Atari) y de mesa (Go / Ajedrez). Pero ahora que RL funciona con LLMs, solo hay un entorno que importa. Y es tu producto.

Kevin Lu10 jul, 00:01

Por qué deberías dejar de trabajar en la investigación de RL y en su lugar trabajar en productos // La tecnología que desbloqueó el gran cambio de escalado en IA es Internet, no transformadores. Creo que es bien sabido que los datos son lo más importante en IA, y también que los investigadores eligen no trabajar en ello de todos modos. ... ¿Qué significa trabajar con datos (de una manera escalable)? Internet proporcionó una rica fuente de datos abundantes, que eran diversos, ofrecían un currículo natural, representaban las competencias que a la gente realmente le importan y era una tecnología económicamente viable para desplegar a gran escala -- se convirtió en el complemento perfecto para la predicción del siguiente token y fue el caldo primordial para que la IA despegara. Sin transformadores, cualquier número de enfoques podría haber despegado, probablemente podríamos tener CNNs o modelos de espacio de estado al nivel de GPT-4.5. Pero no ha habido una mejora dramática en los modelos base desde GPT-4. Los modelos de razonamiento son geniales en dominios específicos, pero no son un salto tan grande como lo fue GPT-4 en marzo de 2023 (hace más de 2 años...) Tenemos algo grandioso con el aprendizaje por refuerzo, pero mi profundo temor es que repetiremos los errores del pasado (era de RL 2015-2020) y haremos investigación de RL que no importa. De la misma manera que Internet fue el dual del preentrenamiento supervisado, ¿cuál será el dual de RL que conducirá a un avance masivo como GPT-1 -> GPT-4? Creo que se parece a la co-diseño de investigación-producto.

10,68K

Misha Laskin republicó

Kasey Zhang4 jul, 01:31

Es fácil ajustar pequeños modelos con RL para superar a los modelos base en tareas verticales. Estamos liberando el código de Osmosis-Apply-1.7B: un pequeño modelo que fusiona código (similar a la aplicación instantánea de Cursor) mejor que los modelos base. ¡Enlaces para descargar y probar el modelo a continuación!

111,38K

Parte superior

Clasificación

Favoritos

En tendencia on-chain

En tendencia en X

Principales fondos recientes

Más destacado