Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Previsões rápidas.
2025: Modelo com mais de 100B de parâmetros treinado em d-redes.
2026: Primeiro modelo *multi-modal* com mais de 50B treinado em GPUs voluntárias.
2027-8: Tudo o mais igual, modelo denso competitivo GPT-3 175B reproduzido.
2030+: Uma verdadeira execução descentralizada "fronteiriça", com mais de 1T de parâmetros.

10/06/2025
Pensamentos/previsões sobre o treinamento de IA descentralizada, 2025.
1. Uma coisa a dizer é que definitivamente estamos em um mundo diferente com o treinamento de IA descentralizada do que estávamos há 18 meses. Naquela época, o treinamento descentralizado era impossível e agora está no mercado e é um campo.
2. Não se engane, o objetivo final do d-training é treinar modelos competitivos e de ponta em d-redes. Assim, estamos apenas no início da nossa jornada competitiva, mas estamos avançando rapidamente.
3. Agora é consenso que podemos pré-treinar e pós-treinar modelos de múltiplos bilhões de parâmetros (principalmente LLMs, principalmente arquiteturas transformer) em d-redes. O estado da arte atual é de até ~100B, o limite superior do qual está à vista, mas não foi mostrado.
4. Agora é consenso que podemos treinar modelos de <10B parâmetros em d-redes de forma bastante viável. Também houve estudos de caso específicos (principalmente de @gensynai @PrimeIntellect @NousResearch) onde 10B, 32B, 40B parâmetros foram ou estão sendo treinados. O enxame de pós-treinamento da @gensynai opera em modelos de até 72B parâmetros.
5. A inovação da @PluralisHQ agora invalidou a "impossibilidade" do pré-treinamento escalável em d-redes ao remover o gargalo de ineficiência de comunicação. No entanto, FLOPs brutos, confiabilidade e verificabilidade permanecem gargalos para esses tipos de redes -- problemas que são muito solucionáveis, mas levarão algum tempo para serem resolvidos tecnicamente. Com o Aprendizado de Protocólo da Pluralis como está, acho que chegamos a modelos de ~100B em um prazo de 6-12 meses.
6. Como chegamos de modelos de 100B para 300B parâmetros? Acho que precisamos encontrar maneiras de fragmentar parâmetros de forma eficaz e fluida e manter a memória de dispositivos individuais relativamente baixa (por exemplo, <32GB de memória por dispositivo). Acho que precisamos chegar a 20 EFlops em uma rede; isso significa algo como 10-20K dispositivos de consumo funcionando por 4-6 semanas em um treinamento.
No geral, o d-training está prestes a ser um espaço muito empolgante. Algumas de suas inovações já estão sendo consideradas para amplas aplicações de IA.
3,68K
Top
Classificação
Favoritos