Dzisiejsze ewaluacje są jak testy dekadę temu. Oczywiście ważne, ale też nie wiadomo dokładnie, jak i ile zainwestować. To świetna rada, ale najważniejsze to spróbować. Jeśli Twój produkt zawiera sztuczną inteligencję i nie masz evals, budujesz zamek z piasku.
shyamal
shyamal20 maj 2025
Rozpoczęcie pracy z evals nie wymaga zbyt wiele. Wzorzec, który zaobserwowaliśmy w przypadku małych zespołów, wygląda bardzo podobnie do programowania opartego na testach zastosowanego w inżynierii sztucznej inteligencji: 1/ Zakotwicz ewaluacje w historyjkach użytkownika, a nie w abstrakcyjnych testach porównawczych: usiądź ze swoim odpowiednikiem produktu / projektu i wymień konkretne rzeczy, które Twój model musi zrobić dla użytkowników. "dokładnie odpowiadaj na pytania dotyczące roszczeń ubezpieczeniowych", "generuj zapytania SQL z języka naturalnego". Dla każdego z nich zapisz 10–20 reprezentatywnych danych wejściowych i żądane wyjścia/zachowania. To jest twój pierwszy plik ewaluacyjny. 2/ Automatyzuj od pierwszego dnia, nawet jeśli jest kruchy. Oprzyj się pokusie, aby "po prostu to zobaczyć". Cóż, OK, wibracje nie skalują się zbyt długo. Opakuj swoje EVALS w kod. Możesz napisać prosty pytest, który zapętla się po przykładach, wywołuje model i zapewnia, że pojawiają się określone podciągi. To surowe, ale to dopiero początek. 3/ Użyj modelu, aby załadować trudniejsze dane ewaluacyjne. Ręczne pisanie setek przypadków brzegowych jest kosztowne. Możesz użyć modeli rozumowania (O3) do wygenerowania syntetycznych wariantów ("Give Me 50 Claim Questions Involving Fire Damage"), a następnie filtrować ręcznie. Przyspiesza to pokrycie bez poświęcania trafności. 4/ Nie gonij rankingów; Iteruj po tym, co się nie powiedzie. Gdy coś nie powiedzie się w środowisku produkcyjnym, nie poprzestawaj na naprawie monitu – dodaj przypadek niepowodzenia do zestawu ewaluacji. Z biegiem czasu Twój pakiet będzie się rozrastał, aby odzwierciedlić Twoje rzeczywiste tryby awarii. Od czasu do czasu dziel wartości ewaluacyjne (według długości danych wejściowych, ustawień regionalnych itp.), aby sprawdzić, czy cofasz się w określonych segmentach. 5/ Rozwijaj swoje wskaźniki w miarę dojrzewania produktu. W miarę skalowania będziesz potrzebować bardziej zniuansowanego oceniania (podobieństwo semantyczne, oceny ludzi, śledzenie kosztów/opóźnień). Zbuduj haki w uprzęży ewaluacyjnej, aby je rejestrować i zmieniać ich trendy w czasie. Uporządkuj swój interfejs użytkownika, aby zbierać niejawne informacje zwrotne (czy użytkownik kliknął "kciuk w górę"?) i przekazywać je z powrotem do swoich ocen offline. 6/ Uwidocznij evale. Umieść prosty pulpit nawigacyjny przed zespołem i interesariuszami pokazujący wskaźniki przejścia EVAL, koszty i opóźnienia. Używaj go w stand-upach. Stwarza to odpowiedzialność i pomaga osobom niezajmującym się uczeniem maszynowym uczestniczyć w dyskusjach na temat kompromisu. Na koniec potraktuj evals jako podstawowy artefakt inżynieryjny. Przypisz własność, przejrzyj ją w przeglądzie kodu, świętuj, gdy dodasz nową trudną sprawę. Dyscyplina będzie wypłacać składane dywidendy w miarę skalowania.
1,12K