一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

Bonk 生态迷因币展现强韧势头

有消息称 Pump.fun 计划 40 亿估值发币，引发市场猜测

Solana 新代币发射平台 Boop.Fun 风头正劲

BOOP+3.2%

Boopa-3.49%

PORK+2.32%

lmarena.ai

lmarena.ai7月18日 22:12

🧵按提供者排名的前10个开放模型尽管专有模型通常位居榜首，但开放模型也在对战模式中并列，并在我们的公共排行榜上排名。以下是按提供者排名的前10个开放模型。 - #1 Kimi K2（修改版MIT） @Kimi_Moonshot - #2 DeepSeek R1 0528（MIT） @deepseek_ai - #3 Qwen 235b a22b 无思考（Apache 2.0） @alibaba_qwen - #4 MiniMax M1（MIT） @minimax_ai - #5 Gemma 3 27b it（Gemma） @googledeepmind - #6 Mistral Small Ultra（Apache 2.0） @mistral_ai - #7 Llama 3.1 Nemotron Ultra 253b v1（Nvidia开放模型） @nvidia - #8 Command A（Cohere） @cohere - #9 Llama 4 Maverick Instruct（Llama 4） @aiatmeta - #10 OLMo 2 32b Instruct（Apache 2.0） @allen_ai 查看线程以了解此列表中前5名的更多信息 👇

31.75K

lmarena.ai7月17日 23:21

🚨 突发消息：@Kimi_Moonshot 的 Kimi-K2 现在是竞技场中排名第一的开放模型！凭借超过 3000 票的社区投票，它在整体排名中位列第五，超越了 DeepSeek，成为顶级开放模型。祝贺 Moonshot 团队取得这一令人印象深刻的里程碑！排行榜现在在前 15 名中有 7 个不同的提供者——这是有史以来最具竞争力的时刻。更多见解请查看线程 🧵

Kimi.ai7月11日 23:03

🚀 你好，Kimi K2！开源代理模型！ 🔹 1T 总计 / 32B 活跃 MoE 模型 🔹 在 SWE Bench 上经过验证的 SOTA，Tau2 和 AceBench 在开放模型中 🔹 在编码和代理任务方面表现强劲 🐤 目前不支持多模态和思维模式有了 Kimi K2，先进的代理智能比以往任何时候都更加开放和可及。我们迫不及待想看看你会构建什么！ 🔌 API 已上线： - 每百万输入令牌 $0.15（缓存命中） - 每百万输入令牌 $0.60（缓存未命中） - 每百万输出令牌 $2.50 🔗 技术博客： 🔗 权重与代码： 🔗 Github：现在就试试，或通过 API！

247.23K

lmarena.ai7月17日 01:03

我们正在为LMArena体验增添一系列改进，大部分灵感直接来自于您的反馈💬 下面是新内容的预览👇

6.9K

lmarena.ai7月15日 02:33

Kimi K2，来自 @Kimi_Moonshot 的最新作品现已在竞技场上线！

Kimi.ai7月11日 23:03

46.33K

lmarena.ai7月14日 23:46

Kimi K2 很快将在竞技场加入🫡

Kimi.ai7月14日 21:42

我们已将 Kimi K2 提交给 @lmarena_ai。等待加入比赛池：

63.45K

lmarena.ai 已转发

Anastasios Nikolas Angelopoulos7月12日 01:23

静态基准测试非常重要，而@grok 4的性能无疑令人印象深刻。我仍在等待人们对这个模型的看法，当它在他们手中时。它会达到预期吗？归根结底，这关乎于为个别用户提供真正的实用性。 Grok 4已经在我们@lmarena_ai的数百万用户手中。迫不及待想看看他们的第一步想法！就我而言，我尝试问了一些难度较大的数学问题，@grok似乎表现得很好。它简洁而真实。看起来非常聪明，我喜欢与这个模型讨论研究。查看附图中的可交换性相关证明！看起来没有错误...

8.6K

lmarena.ai7月12日 01:03

如果你错过了：@xai 的 Grok 4 已经在 Arena 中 🚀 开始提出你最难的问题，与所有最优秀的前沿 AI 并肩作战！我们将看看它在现实场景中的表现是否与在严格基准测试中的表现一样出色。

47.66K

lmarena.ai7月10日 21:57

🚨 新的竞争者进入竞技场：@xAI 的 Grok-4 已上线！ Grok-4 在许多艰难的基准测试中以 #1 的成绩首次亮相，令人印象深刻。现在是时候进行现实世界的测试了：用你最棘手的提示来挑战 Grok-4！

xAI7月10日 12:01

介绍Grok 4，世界上最强大的AI模型。现在观看直播：

791.51K

lmarena.ai7月8日 02:09

🚨 排行榜被打乱！文本到图像爱好者的重大更新。新的模型刚刚在文本到图像排行榜上登场，冲进了前十名！让我们来详细分析一下 🧵 💠#2: Imagen 4 Ultra 💠#4: Flux-1 Kontext Max 💠#5: Flux-1 Kontext Pro 💠#7: Ideogram v3 Quality

14.28K

lmarena.ai7月5日 08:42

🎆 祝你独立日快乐！欢迎来到烟花竞技场！哪个模型能最好地一击模拟烟花？我们使用了WebDev竞技场来找出答案，结果让我们难以置信。这些模型变得不可思议！阵容：Gemini 2.5 Pro vs. Claude 4 Opus：你怎么看？

7.77K