AutoML GRPO macht das Training von hipster RL zu einem Funktionsaufruf.
Wandering Weights
Wandering Weights23. Juli, 16:02
Nächsten Monat steht eine Neuheiten-Suche an, also habe ich einen Schritt zurück gemacht, um zu sehen, was wir seit der letzten tatsächlich ausgeliefert haben. Verrückt, wie schnell sich die Dinge bewegen, wenn man sich voll darauf konzentriert: * DPO hinzugefügt * GRPO hinzugefügt * Native Instruct-Training-Pipeline gegen Meta getestet * Hunderte von Experimenten + Papier, das beweist, dass @gradients_ai die Wettbewerber übertrifft Dann das große: 5.0 → vollständiger Pivot zu einem quelloffenen, unternehmensfokussierten Subnetz Das alles ist in den letzten drei Monaten passiert. Ist das richtig? 🤯
3,02K