Nueva entrada de blog sobre la asimetría de la verificación y la "ley del verificador": La asimetría de la verificación, la idea de que algunas tareas son mucho más fáciles de verificar que de resolver, se está convirtiendo en una idea importante a medida que tenemos RL que finalmente funciona en general. Grandes ejemplos de asimetría de verificación son cosas como los rompecabezas de sudoku, escribir el código para un sitio web como Instagram y los problemas de BrowseComp (se necesitan ~ 100 sitios web para encontrar la respuesta, pero fácil de verificar una vez que tiene la respuesta). Otras tareas tienen casi simetría de verificación, como sumar dos números de 900 dígitos o algunos scripts de procesamiento de datos. Sin embargo, es mucho más fácil proponer soluciones factibles para otras tareas que verificarlas (por ejemplo, verificar un ensayo largo o establecer una nueva dieta como "solo come bisonte"). Una cosa importante que hay que entender sobre la asimetría de la verificación es que se puede mejorar la asimetría haciendo un poco de trabajo de antemano. Por ejemplo, si tienes la clave de respuestas para un problema de matemáticas o si tienes casos de prueba para un problema de Leetcode. Esto aumenta en gran medida el conjunto de problemas con la asimetría de verificación deseable. La "ley del verificador" establece que la facilidad de entrenar a la IA para resolver una tarea es proporcional a la verificabilidad de la tarea. Todas las tareas que sean posibles de resolver y fáciles de verificar serán resueltas por la IA. La capacidad de entrenar a la IA para resolver una tarea es proporcional a si la tarea tiene las siguientes propiedades: 1. Verdad objetiva: todo el mundo está de acuerdo en lo que son las buenas soluciones 2. Rápido de verificar: cualquier solución dada se puede verificar en unos segundos 3. Escalable para verificar: se pueden verificar muchas soluciones simultáneamente 4. Bajo nivel de ruido: la verificación está lo más estrechamente relacionada posible con la calidad de la solución 5. Recompensa continua: es fácil clasificar la bondad de muchas soluciones para un solo problema Un ejemplo obvio de la ley del verificador es el hecho de que la mayoría de los puntos de referencia propuestos en IA son fáciles de verificar y hasta ahora se han resuelto. Tenga en cuenta que prácticamente todos los puntos de referencia populares en los últimos diez años se ajustan a los criterios # 1-4; Los puntos de referencia que no cumplan con los criterios #1-4 tendrían dificultades para volverse populares. ¿Por qué es tan importante la verificabilidad? La cantidad de aprendizaje en IA que se produce se maximiza cuando se cumplen los criterios anteriores; Puede tomar muchos pasos de gradiente donde cada paso tiene mucha señal. La velocidad de iteración es fundamental: es la razón por la que el progreso en el mundo digital ha sido mucho más rápido que el progreso en el mundo físico. AlphaEvolve de Google es uno de los mejores ejemplos de cómo aprovechar la asimetría de la verificación. Se centra en configuraciones que se ajustan a todos los criterios anteriores y ha dado lugar a una serie de avances en matemáticas y otros campos. A diferencia de lo que hemos estado haciendo en IA durante las últimas dos décadas, es un nuevo paradigma en el que todos los problemas se optimizan en un entorno en el que el conjunto de entrenamiento es equivalente al conjunto de prueba. La asimetría de la verificación está en todas partes y es emocionante considerar un mundo de inteligencia irregular donde cualquier cosa que podamos medir se resolverá.
298.73K