Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
bắt đầu với evals không yêu cầu quá nhiều. mô hình mà chúng tôi đã thấy hiệu quả cho các nhóm nhỏ trông rất giống với phát triển theo hướng kiểm thử áp dụng cho kỹ thuật AI:
1/ gắn evals vào các câu chuyện người dùng, không phải vào các tiêu chuẩn trừu tượng: ngồi xuống với đối tác sản phẩm/thiết kế của bạn và liệt kê những điều cụ thể mà mô hình của bạn cần làm cho người dùng. "trả lời chính xác các câu hỏi về yêu cầu bảo hiểm", "tạo truy vấn SQL từ ngôn ngữ tự nhiên". đối với mỗi điều, viết 10–20 đầu vào đại diện và các đầu ra/hành vi mong muốn. đây là tệp eval đầu tiên của bạn.
2/ tự động hóa từ ngày đầu tiên, ngay cả khi nó còn sơ khai. chống lại sự cám dỗ "chỉ cần nhìn qua". được rồi, cảm giác không kéo dài quá lâu. bọc evals của bạn trong mã. bạn có thể viết một pytest đơn giản lặp qua các ví dụ của bạn, gọi mô hình và khẳng định rằng các chuỗi con nhất định xuất hiện. nó thô sơ, nhưng là một khởi đầu.
3/ sử dụng mô hình để khởi động dữ liệu eval khó hơn. viết tay hàng trăm trường hợp biên là tốn kém. bạn có thể sử dụng các mô hình lý luận (o3) để tạo ra các biến thể tổng hợp ("cho tôi 50 câu hỏi yêu cầu liên quan đến thiệt hại do hỏa hoạn") và sau đó lọc bằng tay. điều này tăng tốc độ phủ sóng mà không làm giảm tính liên quan.
4/ không chạy theo bảng xếp hạng; lặp lại những gì thất bại. khi một điều gì đó thất bại trong sản xuất, đừng chỉ sửa prompt – thêm trường hợp thất bại vào bộ eval của bạn. theo thời gian, bộ của bạn sẽ phát triển để phản ánh các chế độ thất bại thực sự của bạn. định kỳ phân đoạn evals của bạn (theo độ dài đầu vào, theo địa phương, v.v.) để xem liệu bạn có đang giảm hiệu suất trên các phân đoạn cụ thể hay không.
5/ phát triển các chỉ số của bạn khi sản phẩm của bạn trưởng thành. khi bạn mở rộng, bạn sẽ muốn có điểm số tinh tế hơn (sự tương đồng ngữ nghĩa, đánh giá của con người, theo dõi chi phí/độ trễ). xây dựng các hook trong bộ eval của bạn để ghi lại những điều này và theo dõi xu hướng theo thời gian. công cụ hóa giao diện người dùng của bạn để thu thập phản hồi ngầm (người dùng có nhấp vào "thích" không?) và đưa điều đó trở lại evals ngoại tuyến của bạn.
6/ làm cho evals trở nên dễ thấy. đặt một bảng điều khiển đơn giản trước đội ngũ và các bên liên quan hiển thị tỷ lệ vượt qua eval, chi phí, độ trễ. sử dụng nó trong các buổi họp đứng. điều này tạo ra trách nhiệm và giúp những người không làm ML tham gia vào các cuộc thảo luận về sự đánh đổi.
cuối cùng, coi evals như một hiện vật kỹ thuật cốt lõi. giao quyền sở hữu, xem xét chúng trong đánh giá mã, ăn mừng khi bạn thêm một trường hợp khó mới. kỷ luật này sẽ mang lại lợi ích cộng dồn khi bạn mở rộng.
24,36K
Hàng đầu
Thứ hạng
Yêu thích