cada vez que lees un informe técnico de un modelo de código abierto de SOTA que básicamente avergüenza al 99% de los modelos de Western Labs (además de los 2 principales), siempre se lee como: "Sí, básicamente seleccionamos datos de muy alta calidad, generamos cuidadosamente una gran cantidad de datos [debido a que no somos retrasados], luego aplicamos todos los mejores trucos y cosas que vimos en los últimos 12 meses para infraestructura, después del entrenamiento, etc., y se nos ocurrieron uno o dos [porque tenemos gusto / cuidado]" la cantidad de empresas en los EE. UU. que podrían estar haciendo esto con el $$$ que se les arroja y ninguna de ellas realmente hace algo como esto te dice mucho sobre el grupo de talentos en estas empresas
"Usamos Muon como optimizador, lo modificamos y pasamos todo nuestro tiempo construyendo una canalización de generación y validación de datos. El resto es específico de nuestro # de cómputo e infraestructura específica + todo lo mejor en las clases que caen de él" guau
vs "Estamos trabajando en SuperIntelligence segura y rentable. AGI está cerca. Los días de los ingenieros han terminado. Contratación de 500 ingenieros".
66.93K