一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

🧵前10名開放模型提供者雖然專有模型通常位居榜首，但開放模型也在競爭中並且在我們的公共排行榜上排名。以下是按提供者排列的前10名開放模型。 - #1 Kimi K2 (修改版 MIT) @Kimi_Moonshot - #2 DeepSeek R1 0528 (MIT) @deepseek_ai - #3 Qwen 235b a22b 無思考 (Apache 2.0) @alibaba_qwen - #4 MiniMax M1 (MIT) @minimax_ai - #5 Gemma 3 27b it (Gemma) @googledeepmind - #6 Mistral Small Ultra (Apache 2.0) @mistral_ai - #7 Llama 3.1 Nemotron Ultra 253b v1 (Nvidia 開放模型) @nvidia - #8 Command A (Cohere) @cohere - #9 Llama 4 Maverick Instruct (Llama 4) @aiatmeta - #10 OLMo 2 32b Instruct (Apache 2.0) @allen_ai 查看線程以了解此列表中前5名的更多信息 👇

Kimi K2 - 在開放競技場中排名第一！如果你一直在關注開源模型，這款來自新興 AI 公司 Moonshot AI 的新模型正在引起轟動，成為迄今為止最令人印象深刻的開源 LLM 之一。我們的社區告訴我們，他們也喜歡 Kimi K2 的回應方式：Kimi 幽默而不顯得過於機械。 Kimi K2 基於混合專家（MoE）架構，總共有 1 兆個參數，其中 320 億個在任何給定的推理過程中是活躍的。這種設計幫助模型在效率和按需性能之間取得平衡。

DeepSeek 的頂級開放模型，DeepSeek R1-0528，排名第 2 R1-0528 是 R1 的精煉指令調整版本，根據社群評價是第二最佳的開放聊天模型。在多輪對話和推理任務中表現強勁。 R1（基準）是原始版本，仍然穩固，但現在稍微落後於更新的調整變體。 V3-0324 是一個 MoE 模型，擁有 236B 的總參數，但每個提示僅激活少數專家。這使得它既強大又高效。它在指令、推理和多語言任務中表現良好，但提示格式在這裡比 R1-0528 更為重要。

Qwen 235b a22b（無思考）是阿里巴巴的頂級開放模型，排名第3 235B-a22b-無思考是一個沒有指令調整的原始模型（因此稱為「無思考」）。它在生成方面表現出色，並因其原始推理能力而在社群中排名很高。阿里巴巴社群中的其他一些頂級開放模型包括： 32B和30B-a3b變體是較小、更快的替代方案，性能穩定，雖然它們落後於頂級模型。由於32B在兩者中更為密集，社群更喜歡其準確性而非30B-a3b。30B-a3b是一個MoE模型，使其速度稍快。 qwq-32b專門設計用來解決複雜的推理問題，旨在匹配像DeepSeek R1這樣的大型模型的性能，但在實際測試中未能達到該標準。

MiniMax M1 以其頂級模型排名第 4 名而上榜。 M1 也因其獨特的 MoE 架構結合一種稱為 "Lightning Attention" 的注意力形式而脫穎而出，這是一種專為高效能令牌處理而設計的線性機制。這種方法確實引起了我們社區的注意，因為它在對話、推理和遵循指令方面表現非常出色。

Google DeepMind 以其頂尖的開放模型 Gemma 3 27b 榮登第 #5 Gemma 3 是一個開放權重的多模態語言模型。Gemma 3 能夠處理文本和圖像輸入，在推理、長上下文任務和視覺語言應用方面表現出色。我們的社區喜愛這個 Gemma 如何提高記憶效率並增加對比之前版本更大上下文的支持。

34.63K