Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Pensamentos/previsões no treinamento descentralizado de IA, 2025.
1. Uma coisa a dizer é que estamos definitivamente em um mundo diferente com o treinamento de IA descentralizado do que estávamos há 18 meses. Naquela época, o treinamento descentralizado era impossível e agora está no mercado e é um campo.
2. Não se engane, o objetivo final do d-training é treinar modelos competitivos e de fronteira em d-networks. Como tal, estamos apenas no início de nossa jornada competitiva, mas estamos nos movendo rapidamente.
3. Agora é consenso que podemos pré-treinar e pós-treinar modelos de vários bilhões de parâmetros (principalmente LLMs, principalmente arquiteturas de transformadores) em d-redes. O estado da arte atual é de até ~ 100B, cuja extremidade superior está à vista, mas não foi mostrada.
4. Agora é consenso que podemos treinar modelos de parâmetros <10B em redes d de forma bastante viável. Também houve estudos de caso específicos (principalmente de @gensynai @PrimeIntellect @NousResearch) em que os parâmetros 10B, 32B, 40B foram ou estão sendo treinados. O enxame pós-treinamento da @gensynai opera em modelos de parâmetros de até 72B.
5. A inovação @PluralisHQ agora invalidou a "impossibilidade" de pré-treinamento escalável em redes d, removendo o gargalo da ineficiência da comunicação. No entanto, FLOPs brutos, confiabilidade e verificabilidade continuam sendo gargalos para esses tipos de redes - problemas que são muito solucionáveis, mas levarão algum tempo para serem resolvidos tecnicamente. Com o Protocolo de Aprendizagem do Pluralis como está, acho que chegamos a ~ 100B modelos em um período de 6 a 12 meses.
6. Como obtemos de modelos de parâmetros 100B a 300B? Acho que precisamos encontrar maneiras de fragmentar parâmetros de forma eficaz e fluida e manter a memória do dispositivo individual relativamente baixa (por exemplo, <32 GB de memória por dispositivo). Acho que precisamos chegar a 20 EFlops em uma rede; isso significa algo como 10-20 mil dispositivos de consumo rodando por 4-6 semanas em um treinamento.
No geral, o d-training está prestes a ser um espaço muito empolgante. Algumas de suas inovações já estão sendo consideradas para amplas aplicações de IA.
4,17K
Melhores
Classificação
Favoritos