Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Max Ryabinin
Aprendizagem profunda em larga escala e @togethercompute de investigação
Learning@home/Hivemind autor (DMoE, DeDLOC, SWARM, Petals)
Doutoramento em DL descentralizado '2023
Se você estiver na ICML e estiver interessado em inferência verificável, não deixe de passar pelo nosso pôster!
Apresentaremos o TOPLOC, um método eficiente de hashing de ativações que funciona em uma variedade de configurações, por exemplo, alternando entre configurações de inferência ou até mesmo modelos.
16 de julho, 16:30, E-1106
1,42K
Com a minha experiência, conseguir que um artigo sobre DL descentralizado seja aceito em conferências de alto nível pode ser bastante difícil. A motivação não é familiar para muitos revisores, e as configurações experimentais padrão não levam em conta os problemas que você pretende resolver.
Portanto, estou muito entusiasmado em ver empresas como @PluralisHQ e @PrimeIntellect a investir o esforço para compartilhar os seus resultados e publicá-los em grandes conferências! Na minha opinião, até preparar a submissão obriga você a ser mais rigoroso em relação aos seus experimentos + o feedback externo dos revisores ajuda a afinar a mensagem do artigo.

Alexander Long14/07, 08:24
Para pessoas que não estão familiarizadas com a publicação em IA; existem 3 principais conferências todos os anos. ICML, ICLR e NeurIPS. Estas são conferências técnicas e o equivalente a revistas em outras disciplinas - são o principal local de publicação para IA. A competição para ter artigos aceites nessas conferências está agora em um nível ridículo, conseguir que os artigos sejam aceites é muito difícil, e há muita preocupação com o processo de revisão, que está bastante barulhento neste momento. Um artigo forte, sem falhas, tem cerca de 50% de chance de ser aceito, e tipicamente um artigo é submetido com alterações dos revisores várias vezes até ser aceito. Apesar de tudo isso, os artigos nesses locais continuam a ser o principal selo de legitimidade no mundo da IA, e provavelmente ainda são as principais métricas de carreira para pesquisadores de ML (embora isso esteja a enfraquecer na minha opinião, já que grande parte da pesquisa nos laboratórios de fronteira não é publicada).
Os artigos da Main Track são significativamente diferentes dos artigos de workshop. A main track tem uma revisão por pares intensa e séria. Os artigos de workshop são para trabalhos preliminares, que dão alguma indicação de um resultado interessante, mas que estão incompletos ou o resultado não é significativo o suficiente para a main track. Eles só precisam ser revisados pelo grupo de revisores do workshop e não aparecem nos anais.
Muitos grandes artigos apareceram pela primeira vez em workshops (por exemplo, grokking) - mas os artigos de workshop e da main track são coisas fundamentalmente diferentes, com um nível de impacto fundamentalmente diferente. As únicas duas empresas em IA descentralizada que têm artigos da main track este ano são @PrimeIntellect e Pluralis.
7,26K
Max Ryabinin republicou
@gowthami_s @JangLawrenceK @IAmTimNguyen @ishapuri101 Treinamento Distribuído em Machine Learning🌍
Junte-se a nós em 12 de julho enquanto @Ar_Douillard explora métodos-chave como FSDP, Pipeline e Expert Parallelism, além de abordagens emergentes como DiLoCo e SWARM, ultrapassando os limites do treinamento global e distribuído.
Saiba mais:

7,27K
Muito obrigado ao Ferdinand por hospedar esta conversa! Foi uma ótima oportunidade para revisar todas as partes do SWARM e discutir a motivação por trás delas em profundidade.
Espero que este vídeo torne o DL descentralizado mais acessível: muitas ideias na área são mais simples do que parecem!

Ferdinand Mom12/06/2025
A revisão em vídeo do artigo de pesquisa sobre "Paralelismo em Enxame" junto com o autor @m_ryabinin, Cientista de Pesquisa Distinto @togethercompute, já está disponível! Link abaixo 👇
Para contexto, a maioria dos treinamentos descentralizados hoje segue abordagens no estilo DDP que requerem replicação completa do modelo em cada nó. Embora prático para aqueles que têm clusters H100 à disposição, isso continua fora do alcance da vasta maioria dos potenciais colaboradores, é aqui que o SWARM se torna útil!

3,11K
Top
Classificação
Favoritos
Tendências on-chain
Popular no X
Principais financiamentos atuais
Mais notável