AutoML GRPO convierte el entrenamiento de RL hipster en una llamada de función
Wandering Weights
Wandering Weights23 jul, 16:02
Debido a una búsqueda de novedades el próximo mes, así que di un paso atrás para ver qué hemos enviado realmente desde el último. Salvaje lo rápido que se mueven las cosas cuando bajas la cabeza: * DPO agregado * GRPO agregado * Pipeline nativo de entrenamiento de instrucciones probado contra la * 100 experimentos + papel que demuestra @gradients_ai supera a los competidores Luego, el más importante: 5.0 → pivote completo hacia una subred de código abierto centrada en la empresa Todo sucedió en los últimos tres meses. ¿Es eso correcto? 🤯
3.01K