DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Bonk Eco continues to show strength amid $USELESS rally

Pump.fun to raise $1B token sale, traders speculating on airdrop

Boop.Fun leading the way with a new launchpad on Solana.

BOOP-2,32 %

Boopa-1,97 %

PORK-6,21 %

will brown

Recompensați hackingul @primeintellect

will brownCu 12 ore în urmă

Una dintre părțile mele preferate ale lucrului la Prime Intellect este să aleg numele prostești ori de câte ori cineva lansează o nouă instanță

3,52K

will brownCu 13 ore în urmă

RL a trecut de la a nu funcționa deloc la a funcționa atât de bine încât codul poate avea erori majore de corectitudine și nu observați pentru că încă funcționează

21,98K

will brownCu 16 ore în urmă

Într-una din aceste zile voi începe să zdrobesc commit-uri, dar astăzi nu este acea zi

4,8K

will brownCu 17 ore în urmă

Este păcat că rămânem fără date de internet pentru că toată lumea a încetat să mai pună conținut nou pe internet

8,92K

will brownCu 19 ore în urmă

ChatGPT ar trebui să aibă un comutator verde mare care spune "Syco Mode"

5,14K

will brown a repostat

Casper Hansen22 iul., 23:07

Rețetă pentru post-antrenarea Qwen3 1.7B într-un model DeepResearch Ce înseamnă pentru ceva mic să gândești profund? Faceți cunoștință cu Lucy, un Qwen3-1.7B post-antrenat ca model DeepResearch bazat pe verificatorii @willccbb. Recompense principale bazate pe reguli: - Corectitudinea răspunsului Verificăm dacă răspunsul final conține literalmente răspunsul de bază. Această potrivire a subșirului este ieftină și evită chemarea unui judecător LLM mai mare. - Raportul vizită/căutare Dacă agentul vizitează cel puțin atâtea pagini câte interogări de căutare, primește ((visit_search_ratio - 1) / 4) ** 0,25. Dacă caută mai mult decât vizitează, scorul este -0,5. Format / Recompense Anti Recompensă-Hacking: - Succesul execuției instrumentelor Fiecare apel API care se întoarce fără o eroare se contorizează. Recompensa este (successful_calls * unique_tools_used) / total_call_attempts. - Eficiența gândirii O penalizare normală centrată pe 70 de jetoane descurajează lanțul nesfârșit de gândire între apelarea instrumentului, permițând în același timp suficiente jetoane pentru planificare. Acesta este modul în care Qwen3 1.7B a învățat să caute, să viziteze și să sintetizeze informații. Modelele mici pot face și ele cercetări profunde!

33,61K

will brown22 iul., 22:31

Dacă un model folosește mai multe apeluri de instrumente secvențiale intercalate cu raționamentul lanțului de gândire pentru a răspunde la o singură întrebare, aceasta este:

11,57K

will brown22 iul., 21:39

Conceptul de postare vagă despre lucruri care sunt deja pe GitHub

5,75K

will brown22 iul., 21:39

trebuie să mai expediați doar câteva lucruri mici și apoi puteți expedia lucrul mare Epoca viitoare va fi atât de distractivă, încât totul se va reuni wow

3,66K

will brown22 iul., 21:02

Încă este o nebunie pentru mine cât de mult s-a schimbat viața mea în ultimul an. vara trecută tocmai terminasem un doctorat în teoria CS, m-am transformat din stagiar bancar în bancar cu normă întreagă și tocmai ajunsesem la 1000 de urmăritori aici. Ieri am fost recunoscut de cineva din zborul meu

54,28K

Limită superioară

Clasament

Favorite

La modă pe lanț

La modă pe X

Principalele finanțări recente

Cele mai importante