Previsões rápidas. 2025: Modelo com mais de 100B de parâmetros treinado em d-redes. 2026: Primeiro modelo *multi-modal* com mais de 50B treinado em GPUs voluntárias. 2027-8: Tudo o mais igual, modelo denso competitivo GPT-3 175B reproduzido. 2030+: Uma verdadeira execução descentralizada "fronteiriça", com mais de 1T de parâmetros.
Jake Brukhman 🚀 deAI Summer 2025
Jake Brukhman 🚀 deAI Summer 202510/06/2025
Pensamentos/previsões sobre o treinamento de IA descentralizada, 2025. 1. Uma coisa a dizer é que definitivamente estamos em um mundo diferente com o treinamento de IA descentralizada do que estávamos há 18 meses. Naquela época, o treinamento descentralizado era impossível e agora está no mercado e é um campo. 2. Não se engane, o objetivo final do d-training é treinar modelos competitivos e de ponta em d-redes. Assim, estamos apenas no início da nossa jornada competitiva, mas estamos avançando rapidamente. 3. Agora é consenso que podemos pré-treinar e pós-treinar modelos de múltiplos bilhões de parâmetros (principalmente LLMs, principalmente arquiteturas transformer) em d-redes. O estado da arte atual é de até ~100B, o limite superior do qual está à vista, mas não foi mostrado. 4. Agora é consenso que podemos treinar modelos de <10B parâmetros em d-redes de forma bastante viável. Também houve estudos de caso específicos (principalmente de @gensynai @PrimeIntellect @NousResearch) onde 10B, 32B, 40B parâmetros foram ou estão sendo treinados. O enxame de pós-treinamento da @gensynai opera em modelos de até 72B parâmetros. 5. A inovação da @PluralisHQ agora invalidou a "impossibilidade" do pré-treinamento escalável em d-redes ao remover o gargalo de ineficiência de comunicação. No entanto, FLOPs brutos, confiabilidade e verificabilidade permanecem gargalos para esses tipos de redes -- problemas que são muito solucionáveis, mas levarão algum tempo para serem resolvidos tecnicamente. Com o Aprendizado de Protocólo da Pluralis como está, acho que chegamos a modelos de ~100B em um prazo de 6-12 meses. 6. Como chegamos de modelos de 100B para 300B parâmetros? Acho que precisamos encontrar maneiras de fragmentar parâmetros de forma eficaz e fluida e manter a memória de dispositivos individuais relativamente baixa (por exemplo, <32GB de memória por dispositivo). Acho que precisamos chegar a 20 EFlops em uma rede; isso significa algo como 10-20K dispositivos de consumo funcionando por 4-6 semanas em um treinamento. No geral, o d-training está prestes a ser um espaço muito empolgante. Algumas de suas inovações já estão sendo consideradas para amplas aplicações de IA.
3,68K