Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Misha Laskin
Co-founder, CEO di @reflection_ai.
Sebelumnya: Staf Ilmuwan Riset @DeepMind.
Tim Gemini RL.
Misha Laskin memposting ulang
Saya adalah salah satu dari 16 pengembang dalam penelitian ini. Saya ingin berbicara tentang pendapat saya tentang penyebab dan strategi mitigasi perlambatan pengembang.
Saya akan mengatakan sebagai "mengapa mendengarkan Anda?" bahwa saya mengalami percepatan AI -38% pada masalah yang saya tugaskan. Saya pikir transparansi membantu masyarakat.

1,96M
Pertanyaan terbesar dalam penelitian RL selalu - lingkungan apa yang Anda latih?
Dulu adalah permainan video (Atari) dan papan (Go / Catur).
Tetapi sekarang RL bekerja dengan LLM, hanya ada satu lingkungan yang penting. Dan itu adalah produk Anda.

Kevin Lu10 Jul, 00.01
Mengapa Anda harus berhenti mengerjakan penelitian RL dan sebagai gantinya mengerjakan produk //
Teknologi yang membuka pergeseran penskalaan besar dalam AI adalah internet, bukan transformator
Saya pikir sudah diketahui bahwa data adalah hal terpenting dalam AI, dan juga bahwa para peneliti memilih untuk tidak mengerjakannya. ... Apa artinya mengerjakan data (dengan cara yang dapat diskalakan)?
Internet menyediakan sumber data yang kaya berlimpah, yang beragam, menyediakan kurikulum alami, mewakili kompetensi yang benar-benar dipedulikan orang, dan merupakan teknologi yang layak secara ekonomi untuk diterapkan dalam skala besar - itu menjadi pelengkap sempurna untuk prediksi token berikutnya dan merupakan sup primordial bagi AI untuk lepas landas.
Tanpa transformator, sejumlah pendekatan bisa lepas landas, kita mungkin bisa memiliki CNN atau model ruang negara pada tingkat GPT-4.5. Tetapi belum ada peningkatan dramatis dalam model dasar sejak GPT-4. Model penalaran sangat bagus dalam domain sempit, tetapi tidak lompatan besar seperti GPT-4 pada Maret 2023 (lebih dari 2 tahun yang lalu...)
Kami memiliki sesuatu yang hebat dengan pembelajaran penguatan, tetapi ketakutan saya yang mendalam adalah bahwa kami akan mengulangi kesalahan masa lalu (RL era 2015-2020) dan melakukan penelitian RL yang tidak masalah.
Dengan cara internet adalah ganda dari prapelatihan yang diawasi, apa yang akan menjadi ganda RL yang akan mengarah pada kemajuan besar-besaran seperti GPT-1 -> GPT-4? Saya pikir itu terlihat seperti desain bersama produk penelitian.

10,66K
Misha Laskin memposting ulang
Sangat mudah untuk menyempurnakan model kecil dengan RL untuk mengungguli model pondasi pada tugas vertikal.
Kami open source Osmosis-Apply-1.7B: model kecil yang menggabungkan kode (mirip dengan aplikasi instan Cursor) lebih baik daripada model foundation.
Tautan untuk mengunduh dan mencoba modelnya di bawah ini!
111,37K
Teratas
Peringkat
Favorit
Trending onchain
Trending di X
Pendanaan teratas terbaru
Paling terkenal