Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Misha Laskin
Medeoprichter, CEO bij @reflection_ai.
Vorige: Staf Onderzoeker @DeepMind.
Gemini RL-team.
Misha Laskin heeft opnieuw gepost
Ik was een van de 16 ontwikkelaars in deze studie. Ik wilde mijn mening geven over de oorzaken en mitigatiestrategieën voor de vertraging van ontwikkelaars.
Ik zal als een "waarom zou ik naar jou luisteren?" haakje zeggen dat ik een -38% AI-versnelling heb ervaren op mijn toegewezen problemen. Ik denk dat transparantie de gemeenschap helpt.

1,96M
De grootste vraag in RL-onderzoek is altijd geweest - op welke omgeving train je?
Vroeger waren het videospellen (Atari) en bordspellen (Go / Schaken).
Maar nu RL werkt met LLM's, is er maar één omgeving die ertoe doet. En dat is jouw product.

Kevin Lu10 jul, 00:01
Waarom je zou moeten stoppen met werken aan RL-onderzoek en in plaats daarvan aan producten zou moeten werken //
De technologie die de grote schaalverschuiving in AI heeft ontgrendeld, is het internet, niet transformers.
Ik denk dat het algemeen bekend is dat data het belangrijkste is in AI, en ook dat onderzoekers ervoor kiezen om er niet aan te werken. ... Wat betekent het om op data te werken (op een schaalbare manier)?
Het internet bood een rijke bron van overvloedige data, die divers was, een natuurlijke leerroute bood, de competenties vertegenwoordigde waar mensen daadwerkelijk om geven, en een economisch levensvatbare technologie was om op grote schaal in te zetten -- het werd de perfecte aanvulling op next-token voorspelling en was de oersoep voor AI om van de grond te komen.
Zonder transformers hadden verschillende benaderingen kunnen opkomen, we zouden waarschijnlijk CNN's of toestandsruimte-modellen op het niveau van GPT-4.5 kunnen hebben. Maar er is sinds GPT-4 geen dramatische verbetering in basismodellen geweest. Redeneringsmodellen zijn geweldig in smalle domeinen, maar niet zo'n grote sprong als GPT-4 was in maart 2023 (meer dan 2 jaar geleden...)
We hebben iets geweldigs met reinforcement learning, maar mijn diepe vrees is dat we de fouten uit het verleden (de RL-periode van 2015-2020) zullen herhalen en RL-onderzoek doen dat er niet toe doet.
Op de manier waarop het internet de tegenhanger was van gesuperviseerde pretraining, wat zal de tegenhanger van RL zijn die zal leiden tot een enorme vooruitgang zoals GPT-1 -> GPT-4? Ik denk dat het eruitziet als onderzoek-product co-ontwerp.

10,69K
Misha Laskin heeft opnieuw gepost
Het is eenvoudig om kleine modellen met RL te verfijnen zodat ze beter presteren dan fundamentmodellen op verticale taken.
We maken Osmosis-Apply-1.7B open source: een klein model dat code (vergelijkbaar met de directe toepassing van Cursor) beter samenvoegt dan fundamentmodellen.
Links om het model te downloaden en uit te proberen hieronder!
111,38K
Boven
Positie
Favorieten
Populair op onchain
Populair op X
Recente topfinanciering
Belangrijkste