新品3 分钟阅读2026-05-03

Grok 4.2 解读：SWE-Bench 70.8%，主打速度与成本的工程利器

基于 xAI 官方发布与公开评测，解读 Grok 4.2——SWE-Bench 内部 70.8%、为速度与成本优化、Grok 4 Heavy 首破 HLE 50%。附 QuickRouter 实时价格与国内直连接入代码。

xAI 交出的答卷是 Grok 4.2。它把火力集中在两件事上：软件工程能力（SWE-Bench） 和 速度 / 成本优化。同系列旗舰 Grok 4 Heavy 是首个在 Humanity's Last Exam（HLE）上突破 50% 的模型。

说明

本文的能力描述来自 xAI 官方发布与公开第三方评测，非本站实测。

一、Grok 4.2 在卷什么？官方公布的三件事

根据 xAI 官方发布，升级重点可以归纳成三件事。

1. 软件工程能力：SWE-Bench 内部 70.8%

在 SWE-Bench 的内部评测上达到 70.8%，意味着它在"读懂代码库、定位问题、提交可用修复"这件事上已经进入第一梯队。

2. 为速度与成本优化

在不牺牲工程能力的前提下，把单次调用的延迟和成本压下来。

3. 同系列旗舰首破 HLE 50%

Grok 4 Heavy 是首个在 Humanity's Last Exam（HLE）上拿到 50% 的模型。

二、Grok 4.2 比 Grok 4 强在哪？

案例 1：软件工程与推理

对比维度	Grok 4.2	Grok 4	Claude Sonnet 4.6
SWE-Bench	70.8%（内部）	较高	高
HLE（系列旗舰）	50%（首破）	50%	较高

来源：xAI 官方发布，2026-05

Grok 4 SWE-Bench Verified 对比图，来源 vellum.ai

案例 2：速度与成本

对比维度	Grok 4.2	Grok 4
速度定位	主打快	基准
成本定位	主打低	基准
工程能力保持	是	—

三、它值多少钱？实时价格

实时价格 · grok-4.2

人民币计价 · 充值比例 ¥1 = $1 · 数据来自 QuickRouter 控制台

国内直连可用

按官方计费规则，人民币充值，无需海外信用卡。查看完整价格表 →

Grok 4.2 / Grok 4 / Sonnet 4.6 价格对比

人民币 · 每 100 万 tokens · 充值比例 ¥1 = $1 · 数据来自 QuickRouter 控制台

模型	厂商	类型	输入	输出
grok-4.2	—	—	—	—
grok-4	—	—	—	—
claude-sonnet-4-6	—	—	—	—

四、国内怎么调用？

4 步跑通 · Grok 4.2

兼容 OpenAI SDK 与常用工具，国内直连

免费开始 →

注册账号

Google 或 GitHub 账号直接登录

复制 API Key

控制台创建令牌即可使用

配置 Base URL

兼容 OpenAI SDK 与常用工具

首次调用成功

一个 Key 调用全球 500+ 大模型

quickrouter_start.py

Ready

from openai import OpenAI

client = OpenAI(
  api_key="YOUR_API_KEY",
  base_url="https://api.quickrouter.ai"
)

response = client.chat.completions.create(
  model="grok-4.2",
  messages=[{"role": "user", "content": "你好"}]
)

print(response.choices[0].message.content)

调用成功

输出：你好！我是 Grok 4.2，有什么可以帮你？

能力总览：六维评分与雷达图

把 Grok 4.2 与上一代 Grok 4 放在六个维度上横向对比，能力差异一目了然：

测评点	Grok 4.2	Grok 4
推理	★★★★½S 级	★★★★☆A 级
代码	★★★★☆A 级	★★★★☆A 级
数学	★★★★½S 级	★★★★☆A 级
多模态	★★★★☆A 级	★★★★☆A 级
长上下文	★★★★☆A 级	★★★½☆B 级
工具调用	★★★★☆A 级	★★★★☆A 级

能力维度评分（5 星制，依据官方公布的基准成绩归一化）。来源：各厂商官方发布，非本站实测

Grok 4.2 能力雷达（vs Grok 4）

Grok 4.2

Grok 4

六维能力对比，实线为 Grok 4.2，虚线为 Grok 4。来源：基于官方公布基准归一化，非本站实测