Mi mejor suposición: Rúbricas + Juez LLM: atomice cada punto en la prueba de verdad fundamental y verifique con la salida del modelo Mi conjetura sobre cómo hicieron esto escalable: como antes no lo era, los humanos tenían que elaborarlos meticulosamente, ¿se entrenaron o hicieron algo para hacer muy buenas rúbricas generadas para cada problema específico o su respuesta?
Alexander Wei
Alexander Wei19 jul, 15:50
5/N Además del resultado en sí, estoy entusiasmado con nuestro enfoque: alcanzamos este nivel de capacidad no a través de una metodología estrecha y específica para cada tarea, sino abriendo nuevos caminos en el aprendizaje por refuerzo de propósito general y el escalado de computación en tiempo de prueba.
.@polynoamial @alexwei_ parpadear dos veces si tengo razón y 3 veces si me equivoco, antes de que las persianas sean guiadas por las ciegas xD
21.63K