新品3 分钟阅读

Grok 4.2 解读:SWE-Bench 70.8%,主打速度与成本的工程利器

基于 xAI 官方发布与公开评测,解读 Grok 4.2——SWE-Bench 内部 70.8%、为速度与成本优化、Grok 4 Heavy 首破 HLE 50%。附 QuickRouter 实时价格与国内直连接入代码。

xAI 交出的答卷是 Grok 4.2。它把火力集中在两件事上:软件工程能力(SWE-Bench)速度 / 成本优化。同系列旗舰 Grok 4 Heavy 是首个在 Humanity's Last Exam(HLE)上突破 50% 的模型。

说明

本文的能力描述来自 xAI 官方发布与公开第三方评测,非本站实测

一、Grok 4.2 在卷什么?官方公布的三件事

根据 xAI 官方发布,升级重点可以归纳成三件事。

1. 软件工程能力:SWE-Bench 内部 70.8%

在 SWE-Bench 的内部评测上达到 70.8%,意味着它在"读懂代码库、定位问题、提交可用修复"这件事上已经进入第一梯队。

2. 为速度与成本优化

在不牺牲工程能力的前提下,把单次调用的延迟和成本压下来。

3. 同系列旗舰首破 HLE 50%

Grok 4 Heavy首个在 Humanity's Last Exam(HLE)上拿到 50% 的模型。

二、Grok 4.2 比 Grok 4 强在哪?

案例 1:软件工程与推理

对比维度Grok 4.2Grok 4Claude Sonnet 4.6
SWE-Bench70.8%(内部)较高
HLE(系列旗舰)50%(首破)50%较高

来源:xAI 官方发布,2026-05

Grok 4 SWE-Bench Verified 对比图,来源 vellum.ai
Grok 4 SWE-Bench Verified 对比图,来源 vellum.ai

案例 2:速度与成本

对比维度Grok 4.2Grok 4
速度定位主打快基准
成本定位主打低基准
工程能力保持

三、它值多少钱?实时价格

实时价格 · grok-4.2

人民币计价 · 充值比例 ¥1 = $1 · 数据来自 QuickRouter 控制台

国内直连可用

按官方计费规则,人民币充值,无需海外信用卡。查看完整价格表 →

Grok 4.2 / Grok 4 / Sonnet 4.6 价格对比

人民币 · 每 100 万 tokens · 充值比例 ¥1 = $1 · 数据来自 QuickRouter 控制台

模型厂商类型输入输出
grok-4.2
grok-4
claude-sonnet-4-6

四、国内怎么调用?

4 步跑通 · Grok 4.2

兼容 OpenAI SDK 与常用工具,国内直连

免费开始 →
01

注册账号

Google 或 GitHub 账号直接登录

02

复制 API Key

控制台创建令牌即可使用

03

配置 Base URL

兼容 OpenAI SDK 与常用工具

04

首次调用成功

一个 Key 调用全球 500+ 大模型

quickrouter_start.py
Ready
from openai import OpenAI

client = OpenAI(
  api_key="YOUR_API_KEY",
  base_url="https://api.quickrouter.ai"
)

response = client.chat.completions.create(
  model="grok-4.2",
  messages=[{"role": "user", "content": "你好"}]
)

print(response.choices[0].message.content)
调用成功

输出:你好!我是 Grok 4.2,有什么可以帮你?

能力总览:六维评分与雷达图

把 Grok 4.2 与上一代 Grok 4 放在六个维度上横向对比,能力差异一目了然:

测评点Grok 4.2Grok 4
推理
★★★★½S 级
★★★★☆A 级
代码
★★★★☆A 级
★★★★☆A 级
数学
★★★★½S 级
★★★★☆A 级
多模态
★★★★☆A 级
★★★★☆A 级
长上下文
★★★★☆A 级
★★★½☆B 级
工具调用
★★★★☆A 级
★★★★☆A 级

能力维度评分(5 星制,依据官方公布的基准成绩归一化)。来源:各厂商官方发布,非本站实测

Grok 4.2 能力雷达(vs Grok 4)
20406080100推理代码数学多模态长上下文工具调用
Grok 4.2
Grok 4

六维能力对比,实线为 Grok 4.2,虚线为 Grok 4。来源:基于官方公布基准归一化,非本站实测

能力总览:六维评分与雷达图

把 Grok 4.2 与上一代 Grok 4 放在六个维度上横向对比,能力差异一目了然:

测评点Grok 4.2Grok 4
推理
★★★★½S 级
★★★★☆A 级
代码
★★★★☆A 级
★★★★☆A 级
数学
★★★★½S 级
★★★★☆A 级
多模态
★★★★☆A 级
★★★★☆A 级
长上下文
★★★★☆A 级
★★★½☆B 级
工具调用
★★★★☆A 级
★★★★☆A 级

能力维度评分(5 星制,依据官方公布的基准成绩归一化)。来源:各厂商官方发布,非本站实测

Grok 4.2 能力雷达(vs Grok 4)
20406080100推理代码数学多模态长上下文工具调用
Grok 4.2
Grok 4

六维能力对比,实线为 Grok 4.2,虚线为 Grok 4。来源:基于官方公布基准归一化,非本站实测

五、该不该用它?

你的场景推荐理由
真实软件工程 / 仓库级 bug 修复Grok 4.2SWE-Bench 70.8%(内部)
高频调用 / 批量代码任务Grok 4.2主打速度与成本
自动化代码审查 / 流水线Grok 4.2又快又便宜
需要极致推理 / 零幻觉看需求不同旗舰各有侧重

信息来源:本文能力描述来自 xAI 官方发布及公开评测,非本站实测。价格数据为发布当日(2026-05-03)QuickRouter 控制台快照,最新价格请以控制台价格页为准。

#Grok 4.2#xAI#编程#性价比#国内直连

继续阅读

现在免费试用,3 分钟完成第一次 API 调用

注册即送 $0.2 体验额度,复制 API Key 和 Base URL 后即可开始测试。

免费试用