马斯克发布Grok 3:多项测试超越DeepSeek,展现强劲竞争力

马斯克旗下公司xAI今天发布了其新一代大语言模型 Grok 3 及其精简版 Grok 3 mini,并公布了最新的基准测试结果。与 DeepSeek 进行直接对比,Grok 3在多个领域表现优异,展现出其强劲的技术实力。

马斯克发布Grok 3:多项测试超越DeepSeek,展现强劲竞争力

在 AIME”24 数学能力测试中,Grok 3获得52分,显著超越DeepSeek-V3的39分;在 科学知识评估(GPQA)中,Grok 3以75分领先DeepSeek-V3的65分;在 编程能力测试(LCB Oct-Feb)中,Grok 3得到了57分,而DeepSeek-V3为36分。

马斯克发布Grok 3:多项测试超越DeepSeek,展现强劲竞争力

最新公布的 AIME 2025性能测试 表明,Grok 3的 Reasoning Beta 版本在推理和计算时间复合评分上取得了93分,而其精简版 Grok 3 mini 则为90分,远超DeepSeek-R1(75分)及Gemini-2 Flash Thinking(54分)。特别是在数学、科学和编程推理中,Grok 3也均领先DeepSeek-R1,展示了在复杂推理和计算效率方面的突出优势。

此外,Grok 3还在 LMSYS聊天机器人竞技场评估 中得分约1400,超越DeepSeek系列,领先GPT-4、Claude等多个主流大模型,展现出强大的自然语言处理能力。

这些成绩不仅证明了Grok 3在数学推理和计算能力方面的优势,也反映了AI领域技术竞争的白热化进展,进一步巩固了xAI在AI大模型领域的技术地位。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注