Chaque fois que vous lisez un rapport technique d'un modèle open-source SOTA qui met essentiellement à l'amende 99 % des modèles des laboratoires occidentaux (à part les deux meilleurs), cela se lit toujours comme : "ouais, nous avons essentiellement sélectionné des données de très haute qualité, généré soigneusement beaucoup de données [parce que nous ne sommes pas retardés], puis nous avons appliqué toutes les meilleures astuces et choses que nous avons vues au cours des 12 derniers mois pour l'infrastructure, le post-entraînement, etc. et nous avons abouti à un ou deux [parce que nous avons du goût / nous nous soucions]". Le nombre d'entreprises aux États-Unis qui pourraient faire cela avec les $$$ qui leur sont jetés et aucune d'entre elles ne faisant vraiment quelque chose de ce genre en dit long sur le vivier de talents dans ces entreprises.
"nous avons utilisé Muon comme optimiseur, l'avons ajusté et avons passé tout notre temps à construire un pipeline de génération et de validation de données. Le reste est spécifique à notre nombre de calculs et à notre infrastructure spécifique + tous les meilleurs dans leur domaine qui en découlent" waow
vs "nous travaillons sur une SuperIntelligence sûre et rentable. L'AGI est proche. Les jours des ingénieurs sont comptés. Recrutement de 500 ingénieurs."
66,99K