Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Adam Wolff
Kode Claude @AnthropicAI 🤖
Juru masak yang rajin, orang salju yang berdedikasi, penggemar yoga
Claude Code, sekarang asli di Windows.
Fitur seperti ini tidak mencolok, tetapi membuat Claude Code *sangat* kuat. Kami ingin itu berjalan ke mana pun Anda berada.

Alex Albert15 Jul, 03.07
Kami memiliki pembaruan besar lainnya untuk Claude Code hari ini: sekarang tersedia secara asli untuk Windows.

13K
"Sementara persaingan terasa seperti kekuatan yang kuat, kolaborasi adalah satu-satunya kekuatan yang lebih kuat."
@tomocchino ❤️

Ryan Vogel13 Jul, 01.50
Lihat bagian pertama dari episode terbaru kami dengan @tomocchino dari @vercel
(Terima kasih sekali lagi kepada Vercel karena mengizinkan kami syuting di HQ)

10,15K
Claude Code sangat dapat disesuaikan, tetapi fitur-fiturnya sulit ditemukan. Banyak orang tidur dengan kekuatan perintah khusus. Sekarang mereka bahkan dapat menyematkan output bash!
Lihat lagi jika Anda belum menggunakan fitur ini.

Alex Albert2 Jul, 00.19
Sebagai pengingat, perintah garis miring memungkinkan Anda menyimpan perintah khusus sebagai file Markdown dan memanggilnya dengan /your-command.
Dengan pembaruan ini, Anda sekarang dapat:
- Jalankan perintah bash dari perintah garis miring
- @ sebutkan file untuk konteks
- Aktifkan pemikiran yang diperluas dengan kata kunci dalam perintah

9,93K
Evals hari ini seperti tes satu dekade yang lalu. Jelas penting, tetapi juga tidak jelas bagaimana dan berapa banyak yang harus diinvestasikan.
Ini adalah saran yang bagus, tetapi yang paling penting adalah mencoba. Jika produk Anda menggabungkan AI dan Anda tidak memiliki eval, Anda sedang membangun kastil yang terbuat dari pasir.

shyamal20 Mei 2025
Memulai dengan EVALS tidak membutuhkan terlalu banyak. pola yang telah kami lihat bekerja untuk tim kecil sangat mirip dengan pengembangan berbasis pengujian yang diterapkan pada rekayasa AI:
1/ Jangkar evals dalam cerita pengguna, bukan dalam tolok ukur abstrak: duduk bersama rekan produk/desain Anda dan buat daftar hal-hal konkret yang perlu dilakukan model Anda untuk pengguna. "jawab pertanyaan klaim asuransi secara akurat", "hasilkan kueri SQL dari bahasa alami". Untuk masing-masing, tulis 10-20 input perwakilan dan output/perilaku yang diinginkan. Ini adalah file eval pertama Anda.
2/ Otomatiskan sejak hari pertama, meskipun rapuh. Tahan godaan untuk "hanya melihatnya". Yah, oke, getaran tidak berskala terlalu lama. Bungkus EVAL Anda dalam kode. Anda dapat menulis pytest sederhana yang mengulang contoh Anda, memanggil model, dan menegaskan bahwa substring tertentu muncul. Ini kasar, tapi ini adalah permulaan.
3/ Gunakan model untuk bootstrap data eval yang lebih keras. menulis ratusan casing tepi secara manual itu mahal. Anda dapat menggunakan model penalaran (O3) untuk menghasilkan variasi sintetis ("Beri saya 50 pertanyaan klaim yang melibatkan kerusakan akibat kebakaran") dan kemudian filter tangan. Ini mempercepat cakupan tanpa mengorbankan relevansi.
4/ jangan mengejar papan peringkat; iterasi pada apa yang gagal. Ketika ada sesuatu yang gagal dalam produksi, jangan hanya memperbaiki prompt – tambahkan kasus yang gagal ke set eval Anda. Seiring waktu, suite Anda akan tumbuh untuk mencerminkan mode kegagalan Anda yang sebenarnya. Irisan eval Anda secara berkala (berdasarkan panjang input, berdasarkan lokal, dll.) untuk melihat apakah Anda mengalami regresi pada segmen tertentu.
5/ Kembangkan metrik Anda seiring bertambahnya usia produk. Saat Anda menskalakan, Anda akan menginginkan penilaian yang lebih bernuansa (kesamaan semantik, peringkat manusia, pelacakan biaya/latensi). Bangun kait di harness EVAL Anda untuk mencatatnya dan mengtrendinya dari waktu ke waktu. menginstrumentasi UI Anda untuk mengumpulkan umpan balik implisit (apakah pengguna mengklik "jempol"?) dan memasukkannya kembali ke eval offline Anda.
6/ membuat evals terlihat. Letakkan dasbor sederhana di depan tim dan pemangku kepentingan yang menunjukkan tingkat kelulusan eval, biaya, latensi. gunakan dalam stand-up. ini menciptakan akuntabilitas dan membantu orang-orang non-ML berpartisipasi dalam diskusi trade-off.
Terakhir, perlakukan Evals sebagai artefak teknik inti. Tetapkan kepemilikan, tinjau di tinjauan kode, rayakan saat Anda menambahkan kasus rumit baru. Disiplin akan membayar dividen majemuk saat Anda meningkatkan.
1,1K
Teratas
Peringkat
Favorit
Trending onchain
Trending di X
Pendanaan teratas terbaru
Paling terkenal