🆕 Training Agentic Reasoners de functie van vandaag is de triomfantelijke terugkeer van @willccbb op het AIE-podium RL-track - nu als onderdeel van @PrimeIntellect! Veel agentbouwers doen in wezen "RL met de hand". Hij legt beknopt de huidige RL-algoritmen uit in één dia (!) maar stelt vervolgens dat RL - vooral voor open modellen - vastzit in wiskunde en code Q&A-land. de nieuwe hype is multi-turn agentic RL, en de nieuwe verifiers-bibliotheek is de ultieme toolkit voor het bouwen van een agent en het omzetten ervan in een RL-loop. Meer mensen zouden moeten verkennen hoe ze betere agentmodellen kunnen bouwen en Will + PI maakt dat mogelijk voor iedereen!
feedsImage
47,56K