AutoML GRPO convierte el entrenamiento de RL hipster en una llamada a función
Wandering Weights
Wandering Weights23 jul, 16:02
Debido a una búsqueda de novedades el próximo mes, me tomé un momento para ver qué hemos enviado realmente desde la última. Es increíble lo rápido que se mueven las cosas cuando estás concentrado: * DPO añadido * GRPO añadido * Pipeline de entrenamiento nativo de instrucciones probado contra el de Meta * Cientos de experimentos + documento que demuestra que @gradients_ai supera a los competidores Luego, lo más importante: 5.0 → cambio total hacia un subnet de código abierto enfocado en empresas Todo sucedió en los últimos tres meses. ¿Es correcto? 🤯
3,02K