Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Misha Laskin
Cofundador, CEO da @reflection_ai.
Anterior: Investigador @DeepMind.
Equipe Gemini RL.
Misha Laskin republicou
Eu fui um dos 16 desenvolvedores neste estudo. Queria falar sobre as minhas opiniões sobre as causas e estratégias de mitigação para a desaceleração dos desenvolvedores.
Vou dizer como um gancho de "por que devo ouvir você?" que experimentei uma aceleração de -38% na IA nas minhas questões atribuídas. Acho que a transparência ajuda a comunidade.

1,96M
A maior questão na pesquisa de RL sempre foi - em que ambiente você está treinando?
Costumava ser jogos de vídeo (Atari) e de tabuleiro (Go / Xadrez).
Mas agora que o RL funciona com LLMs, há apenas um ambiente que importa. E é o seu produto.

Kevin Lu10/07, 00:01
Por que você deve parar de trabalhar em pesquisa de RL e, em vez disso, trabalhar em produtos //
A tecnologia que desbloqueou a grande mudança de escala na IA é a internet, não os transformers
Acho que é bem conhecido que os dados são a coisa mais importante na IA, e também que os pesquisadores escolhem não trabalhar nisso de qualquer maneira. ... O que significa trabalhar com dados (de uma maneira escalável)?
A internet forneceu uma rica fonte de dados abundantes, que eram diversos, ofereciam um currículo natural, representavam as competências que as pessoas realmente se importam e eram uma tecnologia economicamente viável para implantar em escala -- tornou-se o complemento perfeito para a previsão do próximo token e foi a sopa primordial para a IA decolar.
Sem transformers, qualquer número de abordagens poderia ter decolado, provavelmente poderíamos ter CNNs ou modelos de espaço de estado no nível do GPT-4.5. Mas não houve uma melhoria dramática nos modelos base desde o GPT-4. Modelos de raciocínio são ótimos em domínios restritos, mas não são um salto tão grande quanto o GPT-4 foi em março de 2023 (há mais de 2 anos...)
Temos algo ótimo com aprendizado por reforço, mas meu profundo medo é que repetiremos os erros do passado (era de RL de 2015-2020) e faremos pesquisa de RL que não importa.
Da mesma forma que a internet foi o dual do pré-treinamento supervisionado, qual será o dual do RL que levará a um avanço massivo como GPT-1 -> GPT-4? Acho que parece pesquisa-design de produto co-desenhado.

10,67K
Misha Laskin republicou
É fácil ajustar pequenos modelos com RL para superar modelos base em tarefas verticais.
Estamos disponibilizando o Osmosis-Apply-1.7B como código aberto: um pequeno modelo que combina código (semelhante ao instant apply do Cursor) melhor do que os modelos base.
Links para baixar e experimentar o modelo abaixo!
111,37K
Top
Classificação
Favoritos
Tendências on-chain
Popular no X
Principais financiamentos atuais
Mais notável