A revisão do vídeo do artigo de pesquisa sobre "Paralelismo de enxame" junto com o autor @m_ryabinin, Distinguished Research Scientist @togethercompute já foi lançada! Link abaixo 👇 Para contextualizar, a maioria dos treinamentos descentralizados hoje segue abordagens no estilo DDP que exigem replicação completa do modelo em cada nó. Embora prático para aqueles com clusters H100 à sua disposição, isso permanece fora do alcance da grande maioria dos contribuidores em potencial, é aqui que o SWARM é útil!
13,48K