Previsões rápidas. 2025: Modelo de parâmetro 100B+ treinado em d-redes. 2026: Primeiro modelo 50B+ *multimodal* treinado em GPUs voluntárias. 2027-8: Tudo o mais igual, GPT-3 175B modelo competitivo denso reproduzido. 2030+: Uma verdadeira corrida descentralizada de "fronteira", 1T params+.
Jake Brukhman 🚀 deAI Summer 2025
Jake Brukhman 🚀 deAI Summer 202510 de jun. de 2025
Pensamentos/previsões no treinamento descentralizado de IA, 2025. 1. Uma coisa a dizer é que estamos definitivamente em um mundo diferente com o treinamento de IA descentralizado do que estávamos há 18 meses. Naquela época, o treinamento descentralizado era impossível e agora está no mercado e é um campo. 2. Não se engane, o objetivo final do d-training é treinar modelos competitivos e de fronteira em d-networks. Como tal, estamos apenas no início de nossa jornada competitiva, mas estamos nos movendo rapidamente. 3. Agora é consenso que podemos pré-treinar e pós-treinar modelos de vários bilhões de parâmetros (principalmente LLMs, principalmente arquiteturas de transformadores) em d-redes. O estado da arte atual é de até ~ 100B, cuja extremidade superior está à vista, mas não foi mostrada. 4. Agora é consenso que podemos treinar modelos de parâmetros <10B em redes d de forma bastante viável. Também houve estudos de caso específicos (principalmente de @gensynai @PrimeIntellect @NousResearch) em que os parâmetros 10B, 32B, 40B foram ou estão sendo treinados. O enxame pós-treinamento da @gensynai opera em modelos de parâmetros de até 72B. 5. A inovação @PluralisHQ agora invalidou a "impossibilidade" de pré-treinamento escalável em redes d, removendo o gargalo da ineficiência da comunicação. No entanto, FLOPs brutos, confiabilidade e verificabilidade continuam sendo gargalos para esses tipos de redes - problemas que são muito solucionáveis, mas levarão algum tempo para serem resolvidos tecnicamente. Com o Protocolo de Aprendizagem do Pluralis como está, acho que chegamos a ~ 100B modelos em um período de 6 a 12 meses. 6. Como obtemos de modelos de parâmetros 100B a 300B? Acho que precisamos encontrar maneiras de fragmentar parâmetros de forma eficaz e fluida e manter a memória do dispositivo individual relativamente baixa (por exemplo, <32 GB de memória por dispositivo). Acho que precisamos chegar a 20 EFlops em uma rede; isso significa algo como 10-20 mil dispositivos de consumo rodando por 4-6 semanas em um treinamento. No geral, o d-training está prestes a ser um espaço muito empolgante. Algumas de suas inovações já estão sendo consideradas para amplas aplicações de IA.
3,68K