AutoML GRPO kommersialiserar hipster RL-träning till ett funktionsanrop
Wandering Weights
Wandering Weights16 timmar sedan
På grund av en nyhetssökning nästa månad, så jag tog ett steg tillbaka för att se vad vi faktiskt har skickat sedan sista. Vild hur snabbt saker rör sig när dina huvuden är nere: * DPO tillagd * GRPO har lagts till * Native Instruct-träningspipeline testad mot Metas * 100-tals experiment + papper som bevisar @gradients_ai överträffar konkurrenterna Sedan den stora: 5.0 → fullständig pivot till öppen källkod, företagsfokuserat undernät Allt har hänt under de senaste tre månaderna. Stämmer det? 🤯
2,45K