Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

will brown
Recompensați hackingul @primeintellect
will brown a repostat
Rețetă pentru post-antrenarea Qwen3 1.7B într-un model DeepResearch
Ce înseamnă pentru ceva mic să gândești profund? Faceți cunoștință cu Lucy, un Qwen3-1.7B post-antrenat ca model DeepResearch bazat pe verificatorii @willccbb.
Recompense principale bazate pe reguli:
- Corectitudinea răspunsului
Verificăm dacă răspunsul final conține literalmente răspunsul de bază. Această potrivire a subșirului este ieftină și evită chemarea unui judecător LLM mai mare.
- Raportul vizită/căutare
Dacă agentul vizitează cel puțin atâtea pagini câte interogări de căutare, primește ((visit_search_ratio - 1) / 4) ** 0,25. Dacă caută mai mult decât vizitează, scorul este -0,5.
Format / Recompense Anti Recompensă-Hacking:
- Succesul execuției instrumentelor
Fiecare apel API care se întoarce fără o eroare se contorizează. Recompensa este (successful_calls * unique_tools_used) / total_call_attempts.
- Eficiența gândirii
O penalizare normală centrată pe 70 de jetoane descurajează lanțul nesfârșit de gândire între apelarea instrumentului, permițând în același timp suficiente jetoane pentru planificare.
Acesta este modul în care Qwen3 1.7B a învățat să caute, să viziteze și să sintetizeze informații. Modelele mici pot face și ele cercetări profunde!
33,61K
Încă este o nebunie pentru mine cât de mult s-a schimbat viața mea în ultimul an. vara trecută tocmai terminasem un doctorat în teoria CS, m-am transformat din stagiar bancar în bancar cu normă întreagă și tocmai ajunsesem la 1000 de urmăritori aici. Ieri am fost recunoscut de cineva din zborul meu
54,28K
Limită superioară
Clasament
Favorite
La modă pe lanț
La modă pe X
Principalele finanțări recente
Cele mai importante