Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

samsja
Mener des recherches à @PrimeIntellect
Open AI sera rappelé comme l'une des entreprises les plus inspirantes de tous les temps.

Noam Brown19 juil., 15:52
Aujourd'hui, nous chez @OpenAI avons atteint un jalon que beaucoup considéraient comme étant à des années : une performance de niveau médaille d'or au 2025 IMO avec un LLM de raisonnement général—dans les mêmes limites de temps que les humains, sans outils. Aussi remarquable que cela puisse paraître, c'est encore plus significatif que le titre 🧵
8,24K
Je ne vois pas l'intérêt de définir la taille de lot au niveau de chaque GPU dans le code. Cela signifie qu'il faut changer manuellement le paramètre de taille de lot lors de l'augmentation ou de la réduction de l'expérience.
Je suppose que cela a été fait historiquement dans des bases de code qui n'ont pas d'accumulation de gradients ?
1,52K
samsja a reposté
Si vous êtes à l'ICML et intéressé par l'inférence vérifiable, n'oubliez pas de passer voir notre affiche !
Nous présenterons TOPLOC, une méthode de hachage d'activation efficace qui fonctionne dans une variété de contextes, par exemple, en changeant les configurations d'inférence ou même les modèles.
16 juillet, 16h30, E-1106
1,33K
samsja a reposté
Nouveau billet de blog et nouvelle bibliothèque sont maintenant disponibles !
Le BP concerne MaxSim, pourquoi c'est *des ordres de grandeur* beaucoup plus exigeant que la similarité cosinus normale, et pourquoi les GPU s'en fichent, mais les CPU s'en soucient !
La bibliothèque est maxsim-cpu, ce qui permet aux CPU d'être rapides et de rester cool, aussi.

16,86K
Curieux d'essayer cela avec diloco, je ferais toujours bs=1 sur l'optimiseur interne et je bénéficierais toujours des avantages du parallélisme des données.

Micah Goldblum10 juil., 22:12
🚨 Did you know that small-batch vanilla SGD without momentum (i.e. the first optimizer you learn about in intro ML) is virtually as fast as AdamW for LLM pretraining on a per-FLOP basis? 📜 1/n

1,86K
la séniorité en ingénierie consiste également à être capable de travailler avec la dette technique des autres

samsja5 juil., 21:13
Une opinion impopulaire, mais la dette technique est bonne, elle est nécessaire pour accélérer et réduire les délais.
2,25K
Meilleurs
Classement
Favoris
Tendance on-chain
Tendance sur X
Récents financements de premier plan
Les plus notables