Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Las evaluaciones de hoy son como las pruebas de hace una década. Obviamente importante, pero tampoco está claro exactamente cómo y cuánto invertir.
Este es un gran consejo, pero lo más importante es intentarlo. Si tu producto incorpora IA y no tienes evaluaciones, estás construyendo un castillo hecho de arena.

20 may 2025
Comenzar con Evals no requiere demasiado. el patrón que hemos visto funcionar para equipos pequeños se parece mucho al desarrollo basado en pruebas aplicado a la ingeniería de IA:
1/ Evaluaciones de anclaje en historias de usuario, no en puntos de referencia abstractos: Siéntese con su contraparte de producto/diseño y haga una lista de las cosas concretas que su modelo necesita hacer para los usuarios. "responder preguntas sobre reclamaciones de seguros con precisión", "generar consultas SQL a partir de lenguaje natural". Para cada uno, escriba de 10 a 20 entradas representativas y las salidas/comportamientos deseados. Este es su primer archivo de evaluación.
2/ Automatiza desde el primer día, aunque sea frágil. Resiste la tentación de "simplemente mirarlo a ojo". Bueno, está bien, las vibraciones no escalan por mucho tiempo. Envuelve tus evaluaciones en código. Puede escribir un PYTEST simple que recorra los ejemplos, llame al modelo y afirme que aparecen determinadas subcadenas. Es crudo, pero es un comienzo.
3/ Utilice el modelo para arrancar datos de evaluación más duros. Escribir manualmente cientos de casos extremos es costoso. Puede usar modelos de razonamiento (O3) para generar variaciones sintéticas ("Dame 50 preguntas de reclamo relacionadas con daños por incendio") y luego filtrar a mano. Esto acelera la cobertura sin sacrificar la relevancia.
4/ No persigas las tablas de clasificación; Repita lo que falla. Cuando algo falla en producción, no se limite a corregir el mensaje, agregue el caso de error a su conjunto de evaluación. Con el tiempo, su suite crecerá para reflejar sus modos de falla reales. Divida periódicamente las evaluaciones (por longitud de entrada, por configuración regional, etc.) para ver si está retrocediendo en segmentos concretos.
5/ Evoluciona tus métricas a medida que tu producto madura. A medida que escale, querrá una puntuación más matizada (similitud semántica, calificaciones humanas, seguimiento de costo/latencia). Construya ganchos en su arnés de evaluación para registrarlos y seguirles la tendencia a lo largo del tiempo. instrumenta tu interfaz de usuario para recopilar comentarios implícitos (¿el usuario hizo clic en "pulgar hacia arriba"?) y retroalimenta eso en tus evaluaciones sin conexión.
6/ Visibilizar las evaluaciones. Coloque un panel simple frente al equipo y las partes interesadas que muestre las tasas de aprobación de evaluación, el costo y la latencia. Úsalo en stand-ups. esto crea responsabilidad y ayuda a las personas que no son de ML a participar en las discusiones de compensación.
Por último, trate las evaluaciones como un artefacto de ingeniería central. Asigne la propiedad, revíselos en la revisión de código, celebre cuando agregue un nuevo caso complicado. La disciplina pagará dividendos compuestos a medida que escale.
1,12K
Parte superior
Clasificación
Favoritos