AutoML GRPO commercializza l'addestramento RL hipster in una chiamata di funzione
Wandering Weights
Wandering Weights23 lug, 16:02
In attesa di una ricerca di novità il mese prossimo, ho fatto un passo indietro per vedere cosa abbiamo effettivamente spedito dall'ultima. È incredibile quanto velocemente le cose si muovano quando si è concentrati: * Aggiunto DPO * Aggiunto GRPO * Pipeline di addestramento Instruct nativa testata contro quella di Meta * Centinaia di esperimenti + documento che dimostra che @gradients_ai supera i concorrenti Poi la grande novità: 5.0 → pivot completo verso un subnet open source, focalizzato sulle imprese Tutto è successo negli ultimi tre mesi. È corretto? 🤯
3,01K