Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Teknium (e/λ)
Har det ikke vært noen studier på hybride resonnement? Jeg kommer til å gjøre noen kjøringer på tvers av en ny modell uten ikke-resonnerende datasett med den.
Vil fortelle deg hvordan resonnement bare data påvirker modellen kontra når det er resonneringsløse data. Sannsynligvis vil noen uker ha noen gode innsikter hvis jeg kan få tid.
2,86K
Jeg memba wen alle sa at det var et tokeniseringsproblem

Flavio Adamo19. juli, 22:01
2020: "LLM-er kan ikke regne."
2025: LLM vinner gull på IMO
27,4K
Teknium (e/λ) lagt ut på nytt
Hermes 3 fra @NousResearch er datasettet #1 på @huggingface
Jeg planlegger å bruke den
Ikke sov på Nous
De:
- Bygg fantastiske finjusteringer med åpen kildekode
- Bygd distribuert databehandling
- Ha godt kuraterte datasett
- Er helt gjennomsiktige med modelllodd og kode
- Innleggsbaserte versjoner på X

6,24K
Min beste gjetning:
Rubrikker + LLM-dommer - Forstøv hvert punkt i bakkens sannhetsbevis og sjekk mot modellutgangen
Min gjetning på hvordan de gjorde dette skalerbart - som før var det ikke, mennesker måtte omhyggelig lage dem, er de trente eller gjorde noe for å lage veldig gode rubrikker generert for hvert spesifikt problem eller dets svar.
21,25K
Inb4 starter vi en kodende ide for ai slik at vi bare kan få gode data

pash19. juli, 09:58
Jeg vil påpeke at for de virkelige oppgavene (ikke benchmarks), overgår Kimi K2 Gemini.
Dette er telemetri på tvers av alle @cline brukere, og viser feilfrekvens for diffredigering. Legg merke til hvordan Kimi har omtrent 6 % feilrate, som er betydelig bedre enn Geminis ~ 10 % feilrate.
Bemerkelsesverdig nok overgikk Kimi til og med Claude 4 i det meste av denne uken, og oppnådde en feilrate på under 4 %!

6,65K
Interessant gitt all huffing og puffing rundt markøren og overgangen til claude pro max 16

Wes Roth18. juli, 22:30
Anthropic møter varme fra brukerbasen etter å ha strammet inn Claude Codes bruksgrenser, selv for de som betaler $200/måned for Max-planen.
Utviklere er frustrerte over de plutselige restriksjonene og mangelen på kommunikasjon, og noen sier at prosjektene deres har stoppet opp.

5,51K
Topp
Rangering
Favoritter
Trendende onchain
Trendende på X
Nylig toppfinansiering
Mest lagt merke til