马斯克发布Grok 3：多项测试超越DeepSeek，展现强劲竞争力

马斯克旗下公司xAI今天发布了其新一代大语言模型 Grok 3 及其精简版 Grok 3 mini，并公布了最新的基准测试结果。与 DeepSeek 进行直接对比，Grok 3在多个领域表现优异，展现出其强劲的技术实力。

在 AIME”24 数学能力测试中，Grok 3获得52分，显著超越DeepSeek-V3的39分；在科学知识评估（GPQA）中，Grok 3以75分领先DeepSeek-V3的65分；在编程能力测试（LCB Oct-Feb）中，Grok 3得到了57分，而DeepSeek-V3为36分。

马斯克发布Grok 3：多项测试超越DeepSeek，展现强劲竞争力

最新公布的 AIME 2025性能测试表明，Grok 3的 Reasoning Beta 版本在推理和计算时间复合评分上取得了93分，而其精简版 Grok 3 mini 则为90分，远超DeepSeek-R1（75分）及Gemini-2 Flash Thinking（54分）。特别是在数学、科学和编程推理中，Grok 3也均领先DeepSeek-R1，展示了在复杂推理和计算效率方面的突出优势。

此外，Grok 3还在 LMSYS聊天机器人竞技场评估中得分约1400，超越DeepSeek系列，领先GPT-4、Claude等多个主流大模型，展现出强大的自然语言处理能力。

这些成绩不仅证明了Grok 3在数学推理和计算能力方面的优势，也反映了AI领域技术竞争的白热化进展，进一步巩固了xAI在AI大模型领域的技术地位。

AI贴吧网

马斯克发布Grok 3：多项测试超越DeepSeek，展现强劲竞争力

发表回复取消回复

发表回复 取消回复

发表回复取消回复