Sincer, majoritatea dezvoltatorilor de inteligență artificială sunt încă blocați în ultimul secol. Mă uimește cât de puțini oameni sunt conștienți de analiza erorilor. Acesta este *literalmente* cel mai rapid și mai eficient mod de a evalua aplicațiile AI, iar majoritatea echipelor sunt încă blocate în urmărirea fantomelor. Vă rugăm să opriți urmărirea valorilor generice și să urmați acești pași: 1. Colectați probe de eșec Începeți să revizuiți răspunsurile generate de aplicația dvs. Scrieți notițe despre fiecare răspuns, în special despre cele care au fost greșeli. Nu trebuie să vă formatați notele într-un mod specific. Concentrați-vă pe descrierea a ceea ce a mers prost cu răspunsul. 2. Clasificați-vă notele După ce ați revizuit un set bun de răspunsuri, luați un LLM și cereți-i să găsească modele comune în notele dvs. Cereți-i să clasifice fiecare notă pe baza acestor modele. Veți ajunge la categorii care acoperă fiecare tip de greșeală pe care a făcut-o aplicația dvs. 3. Diagnosticați cele mai frecvente greșeli Începeți prin a vă concentra pe cel mai frecvent tip de greșeală. Nu vrei să pierzi timpul lucrând cu greșeli rare. Detaliați conversațiile, intrările și jurnalele care duc la acele eșantioane incorecte. Încercați să înțelegeți ce ar putea cauza problemele. 4. Proiectați remedieri țintite În acest moment, doriți să determinați cum să eliminați greșelile pe care le-ați diagnosticat în pasul anterior cât mai repede și mai ieftin posibil. De exemplu, puteți modifica solicitările, puteți adăuga reguli de validare suplimentare, puteți găsi mai multe date de antrenament sau puteți modifica modelul. 5. Automatizați procesul de evaluare Trebuie să implementați un proces simplu pentru a rula din nou un set de evaluare prin aplicația și pentru a evalua dacă remedierile au fost eficiente. Recomandarea mea este să utilizați un LLM-as-a-Judge pentru a rula eșantioane prin aplicație, a le evalua cu o etichetă PASS/FAIL și a calcula rezultatele. 6. Fii cu ochii pe valorile tale Fiecare categorie pe care ați identificat-o în timpul analizei erorilor este o valoare pe care doriți să o urmăriți în timp. Nu veți ajunge nicăieri dacă sunteți obsedat de "relevanță", "corectitudine", "completitudine", "coerență" și orice alte valori predefinite. Uită de acestea și concentrează-te pe problemele reale pe care le-ai găsit.
49,34K