Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mi mejor suposición:
Rúbricas + Juez LLM: atomice cada punto en la prueba de verdad fundamental y verifique con la salida del modelo
Mi conjetura sobre cómo hicieron esto escalable: como antes no lo era, los humanos tenían que elaborarlos meticulosamente, ¿se entrenaron o hicieron algo para hacer muy buenas rúbricas generadas para cada problema específico o su respuesta?

19 jul, 15:50
5/N Además del resultado en sí, estoy entusiasmado con nuestro enfoque: alcanzamos este nivel de capacidad no a través de una metodología estrecha y específica para cada tarea, sino abriendo nuevos caminos en el aprendizaje por refuerzo de propósito general y el escalado de computación en tiempo de prueba.
.@polynoamial @alexwei_ parpadear dos veces si tengo razón y 3 veces si me equivoco, antes de que las persianas sean guiadas por las ciegas xD
21.63K
Populares
Ranking
Favoritas