Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

samsja
Toonaangevend onderzoek aan de @PrimeIntellect
Open ai zal worden herinnerd als een van de meest inspirerende bedrijven aller tijden.

Noam Brown19 jul, 15:52
Vandaag hebben wij bij @OpenAI een mijlpaal bereikt die velen jaren weg dachten: een gouden medaille-niveau prestatie op de 2025 IMO met een algemeen redeneermodel—onder dezelfde tijdslimieten als mensen, zonder hulpmiddelen. Zo opmerkelijk als dat klinkt, is het nog significanter dan de kop 🧵
8,34K
Ik zie het nut niet in van het definiëren van de batchgrootte op een per GPU-niveau in de codebase. Dit betekent dat je de batchgrootte parameter handmatig moet aanpassen bij het opschalen of afschalen van het experiment.
Ik denk dat dit historisch gezien is gedaan in codebases die geen gradient accumulatie hebben?
1,58K
samsja heeft opnieuw gepost
Als je op ICML bent en geïnteresseerd bent in verifieerbare inferentie, zorg er dan voor dat je bij onze poster langs komt!
We zullen TOPLOC presenteren, een efficiënte activatie-hashingmethode die werkt in verschillende instellingen, bijvoorbeeld bij het wisselen van inferentiesystemen of zelfs modellen.
16 juli, 16:30, E-1106
1,39K
samsja heeft opnieuw gepost
Nieuwe blogpost en nieuwe bibliotheek zijn nu beschikbaar!
De BP gaat over MaxSim, waarom het *ordes van grootte* veel veeleisender is dan normale cosinusgelijkenis, en waarom GPU's het niet uitmaakt, maar CPU's wel!
De bibliotheek is maxsim-cpu, die ervoor zorgt dat CPU's snel kunnen zijn en ook cool blijven.

16,91K
Benieuwd om dit met diloco te proberen, zou nog steeds bs=1 doen op de inner optimizer en nog steeds profiteren van data parallelisme.

Micah Goldblum10 jul, 22:12
🚨 Wist je dat small-batch vanilla SGD zonder momentum (d.w.z. de eerste optimizer waar je over leert in inleiding ML) vrijwel net zo snel is als AdamW voor LLM-pretraining op basis van per-FLOP? 📜 1/n

1,91K
ook senioriteit in engineering betekent in staat zijn om te werken met technische schulden van anderen

samsja5 jul, 21:13
Onpopulaire mening, maar technische schuld is goed, het is nodig om te versnellen en de tijdlijn te verkorten.
2,31K
Boven
Positie
Favorieten
Populair op onchain
Populair op X
Recente topfinanciering
Belangrijkste