Att komma igång med EVALS kräver inte för mycket. Mönstret som vi har sett fungera för små team ser mycket ut som testdriven utveckling tillämpad på AI-teknik: 1/ Förankra evals i användarberättelser, inte i abstrakta riktmärken: Sätt dig ner med din produkt-/designmotpart och lista ut de konkreta saker som din modell behöver göra för användarna. "svara korrekt på frågor om försäkringsanspråk", "generera SQL-frågor från naturligt språk". För var och en, skriv 10–20 representativa indata och önskade utdata/beteenden. Det här är din första Eval-fil. 2/ Automatisera från dag ett, även om det är skört. Motstå frestelsen att "bara titta på det". Tja, OK, vibbar skalar inte för länge. Omslut dina evals i kod. Du kan skriva en enkel pytest som loopar över dina exempel, anropar modellen och kontrollerar att vissa delsträngar visas. Det är grovt, men det är en början. 3/ Använd modellen för att starta hårdare utvärderingsdata. Det är dyrt att manuellt skriva hundratals gränsfall. Du kan använda resonemangsmodeller (O3) för att generera syntetiska varianter ("Ge mig 50 skadefrågor som rör brandskador") och sedan handfiltrera. Detta påskyndar täckningen utan att offra relevansen. 4/ Jaga inte topplistor; Iterera på det som misslyckas. När något misslyckas i produktionen, åtgärda inte bara prompten – lägg till det misslyckade fallet i din eVal-uppsättning. Med tiden kommer din svit att växa för att återspegla dina verkliga misslyckanden. Dela regelbundet upp dina evals (efter indatalängd, efter språk osv.) för att se om du går tillbaka till vissa segment. 5/ Utveckla dina mätvärden i takt med att din produkt mognar. När du skalar vill du ha mer nyanserad bedömning (semantisk likhet, mänskliga klassificeringar, spårning av kostnad/svarstid). Bygg krokar i din Eval-sele för att logga dessa och trenda dem över tid. Instrumentera användargränssnittet för att samla in implicit feedback (klickade användaren på "tummen upp"?) och mata tillbaka det till dina offlineutvärderingar. 6/ Gör evals synliga. Placera en enkel instrumentpanel framför teamet och intressenterna som visar Eval-godkännandehastigheter, kostnad, latens. Använd den i stand-ups. Detta skapar ansvarstagande och hjälper icke-ML-personer att delta i avvägningsdiskussionerna. Slutligen, behandla Evals som en grundläggande teknisk artefakt. Tilldela ägarskap, granska dem i kodgranskning, fira när du lägger till ett nytt knepigt ärende. Disciplinen kommer att ge sammansatt utdelning när du skalar.
24,37K