DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Adam Wolff

Kode Claude @AnthropicAI 🤖 Juru masak yang rajin, orang salju yang berdedikasi, penggemar yoga

Evals hari ini seperti tes satu dekade yang lalu. Jelas penting, tetapi juga tidak jelas bagaimana dan berapa banyak yang harus diinvestasikan. Ini adalah saran yang bagus, tetapi yang paling penting adalah mencoba. Jika produk Anda menggabungkan AI dan Anda tidak memiliki eval, Anda sedang membangun kastil yang terbuat dari pasir.

Memulai dengan EVALS tidak membutuhkan terlalu banyak. pola yang telah kami lihat bekerja untuk tim kecil sangat mirip dengan pengembangan berbasis pengujian yang diterapkan pada rekayasa AI: 1/ Jangkar evals dalam cerita pengguna, bukan dalam tolok ukur abstrak: duduk bersama rekan produk/desain Anda dan buat daftar hal-hal konkret yang perlu dilakukan model Anda untuk pengguna. "jawab pertanyaan klaim asuransi secara akurat", "hasilkan kueri SQL dari bahasa alami". Untuk masing-masing, tulis 10-20 input perwakilan dan output/perilaku yang diinginkan. Ini adalah file eval pertama Anda. 2/ Otomatiskan sejak hari pertama, meskipun rapuh. Tahan godaan untuk "hanya melihatnya". Yah, oke, getaran tidak berskala terlalu lama. Bungkus EVAL Anda dalam kode. Anda dapat menulis pytest sederhana yang mengulang contoh Anda, memanggil model, dan menegaskan bahwa substring tertentu muncul. Ini kasar, tapi ini adalah permulaan. 3/ Gunakan model untuk bootstrap data eval yang lebih keras. menulis ratusan casing tepi secara manual itu mahal. Anda dapat menggunakan model penalaran (O3) untuk menghasilkan variasi sintetis ("Beri saya 50 pertanyaan klaim yang melibatkan kerusakan akibat kebakaran") dan kemudian filter tangan. Ini mempercepat cakupan tanpa mengorbankan relevansi. 4/ jangan mengejar papan peringkat; iterasi pada apa yang gagal. Ketika ada sesuatu yang gagal dalam produksi, jangan hanya memperbaiki prompt – tambahkan kasus yang gagal ke set eval Anda. Seiring waktu, suite Anda akan tumbuh untuk mencerminkan mode kegagalan Anda yang sebenarnya. Irisan eval Anda secara berkala (berdasarkan panjang input, berdasarkan lokal, dll.) untuk melihat apakah Anda mengalami regresi pada segmen tertentu. 5/ Kembangkan metrik Anda seiring bertambahnya usia produk. Saat Anda menskalakan, Anda akan menginginkan penilaian yang lebih bernuansa (kesamaan semantik, peringkat manusia, pelacakan biaya/latensi). Bangun kait di harness EVAL Anda untuk mencatatnya dan mengtrendinya dari waktu ke waktu. menginstrumentasi UI Anda untuk mengumpulkan umpan balik implisit (apakah pengguna mengklik "jempol"?) dan memasukkannya kembali ke eval offline Anda. 6/ membuat evals terlihat. Letakkan dasbor sederhana di depan tim dan pemangku kepentingan yang menunjukkan tingkat kelulusan eval, biaya, latensi. gunakan dalam stand-up. ini menciptakan akuntabilitas dan membantu orang-orang non-ML berpartisipasi dalam diskusi trade-off. Terakhir, perlakukan Evals sebagai artefak teknik inti. Tetapkan kepemilikan, tinjau di tinjauan kode, rayakan saat Anda menambahkan kasus rumit baru. Disiplin akan membayar dividen majemuk saat Anda meningkatkan.

Teratas

Peringkat

Favorit

Trending onchain

Trending di X

Pendanaan teratas terbaru

Paling terkenal