Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Teknium (e/λ)
Apakah tidak ada penelitian tentang penalaran hibrida? Saya akan melakukan beberapa perjalanan di model baru tanpa kumpulan data non-penalaran dengannya.
Akan memberi tahu Anda bagaimana penalaran hanya data memengaruhi model vs ketika ada data tanpa penalaran. Mungkin beberapa minggu akan memiliki beberapa wawasan yang baik jika saya bisa mendapatkan waktu.
3,95K
Saya memba wen semua orang mengatakan itu adalah masalah tokenizer

Flavio Adamo19 Jul, 22.01
2020: "LLM tidak bisa matematika."
2025: LLM memenangkan emas di IMO
33,88K
Teknium (e/λ) memposting ulang
Hermes 3 dari @NousResearch adalah kumpulan data #1 di @huggingface
Saya berencana untuk menggunakannya
Jangan tidur di Nous
Mereka:
- Bangun penyetelan sumber terbuka yang luar biasa
- Komputasi terdistribusi yang dibangun
- Memiliki kumpulan data yang dikuratori dengan baik
- Sepenuhnya transparan dengan bobot dan kode model
- Mengambil X berbasis pos

6,7K
Tebakan terbaik saya:
Rubrik + Hakim LLM - Atomisasi setiap titik dalam bukti kebenaran tanah dan periksa terhadap output model
Tebakan saya tentang bagaimana mereka membuat ini dapat diskalakan - karena sebelumnya tidak, manusia harus membuatnya dengan cermat, apakah mereka melatih atau melakukan sesuatu untuk membuat rubrik yang sangat bagus yang dihasilkan untuk setiap masalah spesifik atau jawabannya.
21,65K
Inb4 kita memulai ide pengkodean untuk ai sehingga kita bisa mendapatkan data yang bagus

pash19 Jul, 09.58
Saya ingin menunjukkan bahwa untuk tugas dunia nyata (bukan tolok ukur), Kimi K2 mengungguli Gemini.
Ini adalah telemetri di semua pengguna @cline, menunjukkan tingkat kegagalan suntingan diff. Perhatikan bagaimana Kimi memiliki tingkat kegagalan sekitar 6%, yang secara signifikan lebih baik daripada tingkat kesalahan ~ 10% Gemini.
Hebatnya, Kimi bahkan melampaui Claude 4 untuk sebagian besar minggu ini, mencapai tingkat kegagalan di bawah 4%!

6,69K
Menarik mengingat semua terengah-engah dan terengah-engah di sekitar kursor dan peralihan ke claude pro max 16

Wes Roth18 Jul, 22.30
Anthropic menghadapi panas dari basis penggunanya setelah diam-diam memperketat batas penggunaan Claude Code, bahkan bagi mereka yang membayar $200/bulan untuk paket Max.
Pengembang frustrasi dengan pembatasan yang tiba-tiba dan kurangnya komunikasi, dengan beberapa mengatakan proyek mereka telah terhenti.

5,56K
Teratas
Peringkat
Favorit
Trending onchain
Trending di X
Pendanaan teratas terbaru
Paling terkenal