Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Shane Gu
Gemini - RL, CoT, multibahasa. Staf Senior RS @GoogleDeepMind MTV. 🇯🇵 -lahir 🇨🇳🇨🇦 . mis: @OpenAI (JP: @shanegJP)
Shane Gu memposting ulang
🚨 Matematika Olimpiade + AI:
Kami menjalankan Google Gemini 2.5 Pro pada masalah IMO 2025 yang baru. Dengan prompting yang cermat dan desain pipeline, ia memecahkan 5 dari 6 — luar biasa untuk tugas yang menuntut wawasan dan kreativitas yang mendalam.
Model bisa memenangkan emas! 🥇
#AI #Math #LLMs #IMO2025
116,75K
Orang Asia: kami akan memperbaiki kekacauan kami sendiri

Patrick Shen18 Jul, 03.03
Pada peluncuran mereka, Cluely mengklaim itu akan membunuh 9 industri.
Kami di sini untuk membunuh hanya satu: kecurangan.
Meet Truely — alat sumber terbuka yang menandai wawancara berbantuan AI secara real time. Kompatibel dengan Zoom, Meets, Teams, dan lainnya.
Masa depan wawancara online ada di sini.
1,97K
Untuk melawan orang Asia, Anda membutuhkan orang Asia

Patrick Shen18 Jul, 03.03
Pada peluncuran mereka, Cluely mengklaim itu akan membunuh 9 industri.
Kami di sini untuk membunuh hanya satu: kecurangan.
Meet Truely — alat sumber terbuka yang menandai wawancara berbantuan AI secara real time. Kompatibel dengan Zoom, Meets, Teams, dan lainnya.
Masa depan wawancara online ada di sini.
191
Mengapa tim pra-pelatihan dan pasca-pelatihan perlu rukun

David Mizrahi18 Jul, 06.21
Senang membagikan karya baru kami: "Model Bahasa Meningkat Saat Data Prapelatihan Mencocokkan Tugas Target"
Ya, kedengarannya jelas (dan memang demikian!), tetapi biasanya ini hanya terjadi secara implisit dan tidak langsung: secara intuitif memilih data → tolok ukur → menyempurnakan → mengulangi.
Kami bertanya-tanya: apa yang terjadi jika kami secara eksplisit mencocokkan data prapelatihan dengan tolok ukur? Hasilnya adalah pendekatan sederhana yang menghasilkan pengganda komputasi 2x+ di atas baseline yang kuat dan memberi kita cara berprinsip untuk mempelajari bagaimana pilihan tolok ukur membentuk (dan membatasi!) kemampuan model.
Bonus: undang-undang penskalaan ekstensif dari 500+ model pelatihan yang mengungkapkan bagaimana pemilihan data optimal berkembang seiring dengan skala model.
🧵 (1/14)

2,64K
Tim Grok menginternalisasi operasi data manusia (misalnya merekrut peran tutor AI untuk bahasa Jepang). Kemungkinan lebih banyak laboratorium perbatasan berpikir tentang memiliki dan mengoperasikan tenaga kerja data.

Koki Ikeda | SoftBank15 Jul, 22.12
"xAI," yang sedang mengembangkan Grok, sedang mencari Tutor AI Jepang.
Pekerjaan ini melibatkan pelabelan dan anotasi data teks, audio, dan video Jepang. Anda dapat bekerja sepenuhnya dari jarak jauh dari Jepang, dan gajinya adalah tarif per jam tinggi yang setara dengan standar Amerika.
🗣️ Penutur asli bahasa Jepang
🧑 💻 Sepenuhnya jarak jauh
💰 Tarif per jam $35–65 (5200-9600 yen)
🕐 Kontrak 6 bulan (dengan kemungkinan perpanjangan)

8,33K
Tim Grok menginternalisasi operasi data manusia (misalnya merekrut peran tutor AI untuk bahasa Jepang). Mengingat transisi Scale AI, kemungkinan lebih banyak laboratorium perbatasan berpikir tentang memiliki dan mengoperasikan tenaga kerja data.

Koki Ikeda | SoftBank15 Jul, 22.12
"xAI," yang sedang mengembangkan Grok, sedang mencari Tutor AI Jepang.
Pekerjaan ini melibatkan pelabelan dan anotasi data teks, audio, dan video Jepang. Anda dapat bekerja sepenuhnya dari jarak jauh dari Jepang, dan gajinya adalah tarif per jam tinggi yang setara dengan standar Amerika.
🗣️ Penutur asli bahasa Jepang
🧑 💻 Sepenuhnya jarak jauh
💰 Tarif per jam $35–65 (5200-9600 yen)
🕐 Kontrak 6 bulan (dengan kemungkinan perpanjangan)

285
Jika Anda berada di ICML dan tertarik dengan RL atau multibahasa, silakan menyapa @marafinkels! Kami bekerja sama dalam beberapa bulan terakhir untuk mengirimkan metode RL untuk memperbaiki masalah kualitas Gemini yang kritis. Dia juga memiliki ide penelitian yang hebat! Semoga Gemini x akademisi tetap berhubungan.

Mara Finkelstein27 Nov 2024
LLM biasanya dievaluasi dengan metrik otomatis pada set pengujian standar, tetapi metrik + set pengujian dikembangkan secara independen. Ini menimbulkan pertanyaan penting: Bisakah kita merancang metrik otomatis secara khusus untuk unggul dalam set pengujian yang kita prioritaskan? Jawaban: Ya!

5,72K
Shane Gu memposting ulang
Posting blog baru tentang asimetri verifikasi dan "hukum verifikasi":
Asimetri verifikasi–gagasan bahwa beberapa tugas jauh lebih mudah untuk diverifikasi daripada dipecahkan–menjadi ide penting karena kita memiliki RL yang akhirnya berfungsi secara umum.
Contoh asimetri verifikasi yang bagus adalah hal-hal seperti teka-teki sudoku, menulis kode untuk situs web seperti instagram, dan masalah BrowseComp (membutuhkan ~100 situs web untuk menemukan jawabannya, tetapi mudah diverifikasi setelah Anda memiliki jawabannya).
Tugas lain memiliki verifikasi yang hampir simetri, seperti menjumlahkan dua angka 900 digit atau beberapa skrip pemrosesan data. Namun tugas-tugas lain jauh lebih mudah untuk mengusulkan solusi yang layak daripada memverifikasinya (misalnya, memeriksa fakta esai panjang atau menyatakan diet baru seperti "hanya makan bison").
Hal penting yang perlu dipahami tentang asimetri verifikasi adalah Anda dapat memperbaiki asimetri dengan melakukan beberapa pekerjaan sebelumnya. Misalnya, jika Anda memiliki kunci jawaban untuk soal matematika atau jika Anda memiliki kasus pengujian untuk soal Leetcode. Ini sangat meningkatkan serangkaian masalah dengan asimetri verifikasi yang diinginkan.
"Hukum verifikasi" menyatakan bahwa kemudahan melatih AI untuk menyelesaikan tugas sebanding dengan seberapa dapat diverifikasi tugas tersebut. Semua tugas yang mungkin diselesaikan dan mudah diverifikasi akan diselesaikan oleh AI. Kemampuan untuk melatih AI untuk menyelesaikan tugas sebanding dengan apakah tugas tersebut memiliki properti berikut:
1. Kebenaran objektif: semua orang setuju apa itu solusi yang baik
2. Cepat untuk memverifikasi: solusi apa pun dapat diverifikasi dalam beberapa detik
3. Dapat diskalakan untuk memverifikasi: banyak solusi dapat diverifikasi secara bersamaan
4. Kebisingan rendah: verifikasi berkorelasi erat dengan kualitas solusi
5. Hadiah berkelanjutan: mudah untuk memberi peringkat kebaikan banyak solusi untuk satu masalah
Salah satu instansiasi yang jelas dari hukum verifikator adalah fakta bahwa sebagian besar tolok ukur yang diusulkan dalam AI mudah diverifikasi dan sejauh ini telah diselesaikan. Perhatikan bahwa hampir semua tolok ukur populer dalam sepuluh tahun terakhir sesuai dengan kriteria #1-4; Tolok ukur yang tidak memenuhi kriteria #1-4 akan kesulitan untuk menjadi populer.
Mengapa verifikasi begitu penting? Jumlah pembelajaran dalam AI yang terjadi dimaksimalkan ketika kriteria di atas terpenuhi; Anda dapat mengambil banyak langkah gradien di mana setiap langkah memiliki banyak sinyal. Kecepatan iterasi sangat penting—itulah alasan mengapa kemajuan di dunia digital jauh lebih cepat daripada kemajuan di dunia fisik.
AlphaEvolve dari Google adalah salah satu contoh terbaik dalam memanfaatkan asimetri verifikasi. Ini berfokus pada pengaturan yang sesuai dengan semua kriteria di atas, dan telah mengarah pada sejumlah kemajuan dalam matematika dan bidang lainnya. Berbeda dari apa yang telah kami lakukan dalam AI selama dua dekade terakhir, ini adalah paradigma baru di mana semua masalah dioptimalkan dalam pengaturan di mana set kereta setara dengan set pengujian.
Asimetri verifikasi ada di mana-mana dan sangat menarik untuk mempertimbangkan dunia kecerdasan bergerigi di mana apa pun yang dapat kita ukur akan diselesaikan.

298,72K
Pekerjaan yang berdampak yang dapat dilakukan siapa pun adalah menggunakan LLM untuk menjurnalkan dan mendigitalkan sebanyak mungkin alur kerja, CoT, dan inspirasi Anda.
Rekayasa konteks untuk mengotomatiskan dan menambah diri Anda dalam hidup dan pekerjaan.

Thariq15 Jul, 05.51
Jurnal & Yang Harus Dilakukan
Saya memiliki beberapa perintah khusus:
/journal yang akan membuat entri jurnal baru untuk hari itu.
/todos, perintah yang memungkinkan saya membuat hal baru yang harus dilakukan atau menandai orang lain sebagai selesai. Yang harus dilakukan diatur berdasarkan topik dalam file, misalnya '
Claude akan sering mencari kode, proyek, dll. saya untuk konteks lebih lanjut ketika saya menambahkan tugas yang harus dilakukan, yang sangat membantu.
786
Teratas
Peringkat
Favorit
Trending onchain
Trending di X
Pendanaan teratas terbaru
Paling terkenal