🧵Top 10 Modelos Abertos por Fornecedor Embora modelos proprietários frequentemente liderem as classificações, modelos abertos também estão emparelhados em modo de batalha e classificados em nossos quadros de líderes públicos. Aqui estão os 10 melhores quando empilhados pelo melhor modelo aberto por fornecedor. - #1 Kimi K2 (MIT Modificado) @Kimi_Moonshot - #2 DeepSeek R1 0528 (MIT) @deepseek_ai - #3 Qwen 235b a22b sem pensar (Apache 2.0) @alibaba_qwen - #4 MiniMax M1 (MIT) @minimax_ai - #5 Gemma 3 27b it (Gemma) @googledeepmind - #6 Mistral Small Ultra (Apache 2.0) @mistral_ai - #7 Llama 3.1 Nemotron Ultra 253b v1 (Modelo Aberto Nvidia) @nvidia - #8 Command A (Cohere) @cohere - #9 Llama 4 Maverick Instruct (Llama 4) @aiatmeta - #10 OLMo 2 32b Instruct (Apache 2.0) @allen_ai Veja o tópico para aprender um pouco mais sobre os 5 melhores desta lista 👇
Kimi K2 - #1 na Open Arena! Se você tem prestado atenção aos modelos de código aberto, este novo modelo da crescente empresa de IA, Moonshot AI, está fazendo ondas como um dos LLMs de código aberto mais impressionantes até hoje. Nossa comunidade nos diz que também adora a forma como Kimi K2 responde: Kimi é humorístico sem soar muito robótico. Kimi K2 é construído sobre uma arquitetura de Mistura de Especialistas (MoE), com um total de 1 trilhão de parâmetros, dos quais 32 bilhões estão ativos durante qualquer inferência. Este design ajuda o modelo a equilibrar eficiência e desempenho sob demanda.
O modelo aberto de topo da DeepSeek, DeepSeek R1-0528, ocupa o 2º lugar O R1-0528 é uma versão refinada ajustada por instruções do R1, e é o 2º melhor modelo de chat aberto de acordo com a comunidade. É forte em diálogos de múltiplas interações e tarefas de raciocínio. O R1 (baseline) é o original, ainda sólido, mas agora ligeiramente atrás das variantes de ajuste mais recentes. O V3-0324 é um modelo MoE com 236B de parâmetros totais, mas ativa apenas alguns especialistas por prompt. Isso torna-o poderoso e eficiente. Desempenha bem em tarefas de instrução, raciocínio e multilingues, mas o formato do prompt é mais importante aqui do que com o R1-0528.
Qwen 235b a22b (sem pensar) é o modelo aberto de topo da Alibaba, classificado em #3 235B-a22b-sem-pensar é um modelo bruto sem ajuste de instruções (daí "sem pensar"). É excelente em geração e tem uma classificação alta na comunidade devido ao seu poder de raciocínio bruto. Alguns outros modelos abertos de topo da nossa comunidade da Alibaba incluem: As variantes 32B e 30B-a3b são alternativas menores e mais rápidas com desempenho sólido, embora fiquem atrás dos modelos de topo. Com 32B sendo mais denso entre os dois, a comunidade prefere a sua precisão em relação ao 30B-a3b. O 30B-a3b é um modelo MoE, tornando-o um pouco mais rápido. qwq-32b é especificamente projetado para enfrentar problemas complexos de raciocínio e visa igualar o desempenho de modelos maiores como o DeepSeek R1, mas não consegue atingir esse nível quando submetido a testes no mundo real.
O MiniMax M1 faz parte da lista com o seu modelo topo classificado em #4. O M1 também se destaca pela sua abordagem única com a arquitetura MoE combinada com uma forma de atenção chamada "Lightning Attention", um mecanismo linearizado projetado especificamente para o processamento eficiente de tokens. A abordagem definitivamente chamou a atenção da nossa comunidade por ser realmente boa em diálogo, raciocínio e seguimento de instruções.
O Google DeepMind ocupa o #5 com o seu principal modelo aberto, Gemma 3 27b. Gemma 3 é um modelo de linguagem multimodal com pesos abertos. O Gemma 3 pode lidar com entradas de texto e imagem, destacando-se em raciocínio, tarefas de longo contexto e aplicações de visão-linguagem. A nossa comunidade adora como este Gemma melhorou a eficiência da memória e aumentou o suporte para contextos maiores em relação às versões anteriores.
34,63K