Recept för att efterträna Qwen3 1.7B i en DeepResearch-modell Vad innebär det för något litet att tänka djupt? Möt Lucy, en eftertränad Qwen3-1.7B som en DeepResearch-modell baserad på @willccbb:s verifierare. Primära regelbaserade belöningar: - Svara korrekt Vi kontrollerar om det slutliga svaret bokstavligen innehåller det grundläggande sanningen. Denna delsträngsmatchning är billig och undviker att ringa en större LLM-domare. - Förhållande mellan besök och sökning Om agenten besöker minst lika många sidor som den gör sökfrågor får den ((visit_search_ratio - 1) / 4) ** 0,25. Om den söker mer än den besöker är poängen -0,5. Format / Anti Reward-Hacking Belöningar: - Lyckad körning av verktyg Varje API-anrop som returneras utan fel räknas. Belöningen är (successful_calls * unique_tools_used) / total_call_attempts. - Effektivt tänkande Ett skevt normalt straff centrerat vid 70 tokens avskräcker från oändlig tankekedja mellan verktygsanrop samtidigt som det tillåter tillräckligt med tokens för planering. Det var så Qwen3 1.7B lärde sig att söka, besöka och syntetisera information. Små modeller kan också göra djupgående forskning!
38,96K