DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Bonk Eco continues to show strength amid $USELESS rally

Pump.fun to raise $1B token sale, traders speculating on airdrop

Boop.Fun leading the way with a new launchpad on Solana.

BOOP−6,2 %

Boopa+1,86 %

PORK−7,09 %

will brown

belöning hacking @primeintellect

will brown12 timmar sedan

Stort av att göra kod kortare och snyggare och kraftfullare på samma gång ToolEnv var i behov av en översyn

3,4K

will brown23 juli 10:36

En av mina favoritdelar av att arbeta på Prime Intellect är att få välja de fåniga namnen när någon startar en ny instans

4,72K

will brown23 juli 09:21

RL gick från att inte fungera alls till att fungera så bra att kod kan ha stora korrekthetsbuggar och det märker man inte eftersom det ändå bara fungerar

39,48K

will brown23 juli 06:52

En av dessa dagar ska jag börja mosa commits men idag är inte den dagen

6,26K

will brown23 juli 05:57

Det är synd att vi håller på att få slut på internetdata eftersom alla kollektivt slutade lägga ut nytt innehåll på internet

12,06K

will brown23 juli 03:48

ChatGPT ska ha en stor grön strömbrytare som säger "Syco Mode"

5,77K

will brown delade inlägget

Casper Hansen22 juli 23:07

Recept för att efterträna Qwen3 1.7B i en DeepResearch-modell Vad innebär det för något litet att tänka djupt? Möt Lucy, en eftertränad Qwen3-1.7B som en DeepResearch-modell baserad på @willccbb:s verifierare. Primära regelbaserade belöningar: - Svara korrekt Vi kontrollerar om det slutliga svaret bokstavligen innehåller det grundläggande sanningen. Denna delsträngsmatchning är billig och undviker att ringa en större LLM-domare. - Förhållande mellan besök och sökning Om agenten besöker minst lika många sidor som den gör sökfrågor får den ((visit_search_ratio - 1) / 4) ** 0,25. Om den söker mer än den besöker är poängen -0,5. Format / Anti Reward-Hacking Belöningar: - Lyckad körning av verktyg Varje API-anrop som returneras utan fel räknas. Belöningen är (successful_calls * unique_tools_used) / total_call_attempts. - Effektivt tänkande Ett skevt normalt straff centrerat vid 70 tokens avskräcker från oändlig tankekedja mellan verktygsanrop samtidigt som det tillåter tillräckligt med tokens för planering. Det var så Qwen3 1.7B lärde sig att söka, besöka och syntetisera information. Små modeller kan också göra djupgående forskning!

38,34K

will brown22 juli 22:31

Om en modell använder flera sekventiella verktygsanrop interfolierade med tankekedjeresonemang för att besvara en enda fråga är detta:

12,72K

will brown22 juli 21:39

Konceptet med vaga inlägg om saker som redan finns på GitHub

5,9K

will brown22 juli 21:39

behöver skicka bara ett par små saker till och sedan kan skicka den stora saken kommande era kommer att bli så mycket roligt att det verkligen kommer samman wow

3,78K

Topp

Rankning

Favoriter

Trendande på kedjan

Trendande på X

Senaste toppfinansieringarna

Mest anmärkningsvärda