Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

will brown
belöning hacking @primeintellect
will brown delade inlägget
Recept för att efterträna Qwen3 1.7B i en DeepResearch-modell
Vad innebär det för något litet att tänka djupt? Möt Lucy, en eftertränad Qwen3-1.7B som en DeepResearch-modell baserad på @willccbb:s verifierare.
Primära regelbaserade belöningar:
- Svara korrekt
Vi kontrollerar om det slutliga svaret bokstavligen innehåller det grundläggande sanningen. Denna delsträngsmatchning är billig och undviker att ringa en större LLM-domare.
- Förhållande mellan besök och sökning
Om agenten besöker minst lika många sidor som den gör sökfrågor får den ((visit_search_ratio - 1) / 4) ** 0,25. Om den söker mer än den besöker är poängen -0,5.
Format / Anti Reward-Hacking Belöningar:
- Lyckad körning av verktyg
Varje API-anrop som returneras utan fel räknas. Belöningen är (successful_calls * unique_tools_used) / total_call_attempts.
- Effektivt tänkande
Ett skevt normalt straff centrerat vid 70 tokens avskräcker från oändlig tankekedja mellan verktygsanrop samtidigt som det tillåter tillräckligt med tokens för planering.
Det var så Qwen3 1.7B lärde sig att söka, besöka och syntetisera information. Små modeller kan också göra djupgående forskning!
38,34K
Topp
Rankning
Favoriter
Trendande på kedjan
Trendande på X
Senaste toppfinansieringarna
Mest anmärkningsvärda