Evals i dag er som tester var for et tiår siden. Åpenbart viktig, men også uklart nøyaktig hvordan og hvor mye du skal investere. Dette er et godt råd, men det viktigste er å prøve. Hvis produktet ditt inneholder AI og du ikke har evals, bygger du et slott laget av sand.
shyamal
shyamal20. mai 2025
Å komme i gang med Evals krever ikke for mye. mønsteret som vi har sett fungere for små team, ligner mye på testdrevet utvikling brukt på AI-teknikk: 1/ Forankre evalueringer i brukerhistorier, ikke i abstrakte benchmarks: Sett deg ned med produkt-/designmotparten din og liste opp de konkrete tingene modellen din må gjøre for brukerne. "svar nøyaktig på spørsmål om forsikringskrav", "generer SQL-spørringer fra naturlig språk". For hver, skriv 10–20 representative inndata og ønskede utdata/oppførsel. Dette er din første Eval-fil. 2/ Automatiser fra dag én, selv om det er sprøtt. motstå fristelsen til å "bare øyeeple det". Vel, ok, vibber skalerer ikke for lenge. Pakk inn evalene dine i kode. Du kan skrive en enkel pytest som sløyfer over eksemplene dine, kaller modellen og hevder at visse delstrenger vises. det er rått, men det er en begynnelse. 3/ Bruk modellen til å starte opp vanskeligere evalueringsdata. Manuell skriving av hundrevis av kantsaker er dyrt. Du kan bruke resonneringsmodeller (O3) for å generere syntetiske variasjoner ("Gi meg 50 kravspørsmål som involverer brannskader") og deretter håndfiltrere. Dette øker dekningen uten at det går på bekostning av relevansen. 4/ Ikke jage topplister; Gjenta det som mislykkes. Når noe mislykkes i produksjonen, ikke bare fiks ledeteksten – legg til den mislykkede saken i evalueringssettet ditt. Over tid vil suiten din vokse til å gjenspeile dine virkelige feilmoduser. Del opp evalene dine med jevne mellomrom (etter inndatalengde, etter nasjonal innstilling osv.) for å se om du går tilbake på bestemte segmenter. 5/ Utvikle beregningene dine etter hvert som produktet modnes. Når du skalerer, vil du ha mer nyansert poengsum (semantisk likhet, menneskelige vurderinger, kostnads-/ventetidssporing). Bygg kroker i Eval-selen din for å logge disse og trende dem over tid. instrumenter brukergrensesnittet ditt for å samle inn implisitte tilbakemeldinger (klikket brukeren på "tommel opp"?) og matet det tilbake til offline-evalueringene dine. 6/ Gjør evals synlige. Sett et enkelt dashbord foran teamet og interessenter som viser eval-beståttrater, kostnader, ventetid. Bruk den i stand-ups. dette skaper ansvarlighet og hjelper ikke-ML-folk å delta i avveiningsdiskusjonene. Til slutt, behandle Evals som en kjerneingeniørartefakt. Tildel eierskap, gjennomgå dem i kodegjennomgang, feire når du legger til en ny vanskelig sak. disiplinen vil gi sammensatt utbytte etter hvert som du skalerer.
1,11K