Qwen3.7-Max 解读:国产登顶、GPQA 超越 Opus 4.6,35 小时无中断 Agent 怎么卷出来的
基于阿里官方发布与公开评测,解读 Qwen3.7-Max——Intelligence Index 56.6 全球第五国产第一,GPQA Diamond 92.4 超越 Claude Opus 4.6,35 小时自主执行。附 QuickRouter 实时价格与国内直连接入。
国产模型和海外旗舰之间那道"还差一点"的天花板,被阿里在 2026 年 5 月用 Qwen3.7-Max 撞了一下。根据中国日报报道与 Qwen 官方发布,这代旗舰在公开盲测总榜上位列国产第一,推理基准 GPQA Diamond 还反超了 Claude Opus 4.6。
但比单点跑分更值得关注的是它的定位转向:官方不再把 Qwen3.7-Max 单纯描述为"对话模型",而是反复强调一个词——Agent。35 小时不间断自主执行、100 万 token 上下文、SWE-bench 上的代码工程能力,共同指向同一个判断:阿里在赌"长程任务执行力"会是下一代大模型的分水岭。
说明
本文的能力描述来自阿里官方发布页与公开评测,非本站实测。涉及的能力结论均标注来源,价格数据为 QuickRouter 控制台实时值。建议你用注册赠送的额度,拿自己的真实任务验证。
一、Qwen3.7-Max 在卷什么?官方公布的三件事
1. 推理登顶:GPQA Diamond 反超 Opus 4.6
在被誉为"最难科学推理基准"的 GPQA Diamond 上,Qwen3.7-Max 拿到 92.4,反超 Claude Opus 4.6 的 91.3。在第三方机构 Artificial Analysis 的 Intelligence Index 综合榜上,它以 56.6 的得分位列全球第五、国产第一。
2. 工程执行力:SWE-bench Verified 72.3%
根据公开评测,它在 SWE-bench Verified 上拿到 72.3%,位列国产第一、全球前三。SWE-bench 测的是"能不能像工程师一样修真实仓库里的 issue"——读懂代码库、定位问题、跨文件改动并让测试通过。
3. Agent 持续力:35 小时无中断自主执行
官方展示了 Qwen3.7-Max 连续 35 小时自主执行任务、零中断的能力。配合 100 万 token 的上下文窗口,它能在超长任务流里保持目标对齐、不被中途打断重置。
二、实测案例(公开评测)
案例 1:综合智能(Intelligence Index)
| 模型 | Intelligence Index | 全球排名 |
|---|---|---|
| 海外旗舰前三 | 57+ | #1–#3 |
| Qwen3.7-Max | 56.6 | #5(国产 #1) |
来源:Artificial Analysis、MarkTechpost,公开评测
案例 2:硬核推理(GPQA Diamond)
| 模型 | GPQA Diamond | 结论 |
|---|---|---|
| Qwen3.7-Max | 92.4 | 反超 |
| Claude Opus 4.6 | 91.3 | 被反超 |
来源:Qwen 官方博客,公开评测
案例 3:软件工程与 Agent 持续力
| 维度 | Qwen3.7-Max |
|---|---|
| SWE-bench Verified | 72.3%(国产第一、全球前三) |
| 上下文窗口 | 1M token |
| 自主执行时长 | 35 小时(零中断) |
关于跑分的一个补充
公开评测机构也提醒:SWE-bench 等基准的绝对分数对评测集版本敏感,不同来源给出的数字可能存在差异。建议以官方博客最新数据为准。
三、价格
Qwen3.7-Max / Plus / Opus 4.8 价格对比
人民币 · 每 100 万 tokens · 充值比例 ¥1 = $1 · 数据来自 QuickRouter 控制台
| 模型 | 厂商 | 类型 | 输入 | 输出 |
|---|---|---|---|---|
| qwen3.7-max | — | — | — | — |
| qwen3.7-plus | — | — | — | — |
| claude-opus-4-8 | — | — | — | — |
省钱要点
高频、中低复杂度任务优先用 Qwen3.7-Plus;只有需要顶配推理、超长 Agent 任务时再上 Max。
四、国内怎么调用?
4 步跑通 · Qwen3.7-Max
兼容 OpenAI SDK 与常用工具,国内直连
注册账号
Google 或 GitHub 账号直接登录
复制 API Key
控制台创建令牌即可使用
配置 Base URL
兼容 OpenAI SDK 与常用工具
首次调用成功
一个 Key 调用全球 500+ 大模型
from openai import OpenAI
client = OpenAI(
api_key="YOUR_API_KEY",
base_url="https://api.quickrouter.ai"
)
response = client.chat.completions.create(
model="qwen3.7-max",
messages=[{"role": "user", "content": "你好"}]
)
print(response.choices[0].message.content)输出:你好!我是 Qwen3.7-Max,有什么可以帮你?

能力总览:六维评分与雷达图
把 Qwen 3.7 Max 与上一代 Qwen 3 Max 放在六个维度上横向对比,能力差异一目了然:
| 测评点 | Qwen 3.7 Max | Qwen 3 Max |
|---|---|---|
| 推理 | ★★★★½S 级 | ★★★★☆A 级 |
| 代码 | ★★★★½S 级 | ★★★★☆A 级 |
| 数学 | ★★★★½S 级 | ★★★★☆A 级 |
| 多模态 | ★★★★☆A 级 | ★★★★☆A 级 |
| 长上下文 | ★★★★½S 级 | ★★★★☆A 级 |
| 工具调用 | ★★★★☆A 级 | ★★★★☆A 级 |
能力维度评分(5 星制,依据官方公布的基准成绩归一化)。来源:各厂商官方发布,非本站实测
六维能力对比,实线为 Qwen 3.7 Max,虚线为 Qwen 3 Max。来源:基于官方公布基准归一化,非本站实测
能力总览:六维评分与雷达图
把 Qwen 3.7 Max 与上一代 Qwen 3 Max 放在六个维度上横向对比,能力差异一目了然:
| 测评点 | Qwen 3.7 Max | Qwen 3 Max |
|---|---|---|
| 推理 | ★★★★½S 级 | ★★★★☆A 级 |
| 代码 | ★★★★½S 级 | ★★★★☆A 级 |
| 数学 | ★★★★½S 级 | ★★★★☆A 级 |
| 多模态 | ★★★★☆A 级 | ★★★★☆A 级 |
| 长上下文 | ★★★★½S 级 | ★★★★☆A 级 |
| 工具调用 | ★★★★☆A 级 | ★★★★☆A 级 |
能力维度评分(5 星制,依据官方公布的基准成绩归一化)。来源:各厂商官方发布,非本站实测
六维能力对比,实线为 Qwen 3.7 Max,虚线为 Qwen 3 Max。来源:基于官方公布基准归一化,非本站实测
五、该不该用它?
| 你的场景 | 推荐 | 理由 |
|---|---|---|
| 硬核推理(科研/数学/复杂逻辑) | Qwen3.7-Max | GPQA Diamond 92.4 反超 Opus 4.6 |
| 大型工程任务、跨仓库代码改造 | Qwen3.7-Max | SWE-bench Verified 国产第一 |
| 长程自动化 Agent | Qwen3.7-Max | 35 小时无中断 + 1M 上下文 |
| 中文场景、国内合规敏感业务 | Qwen3.7-Max | 国产旗舰,国内直连便于合规 |
| 日常对话、简单代码 | Qwen3.7-Plus | 性价比更高 |
信息来源:本文能力描述来自 中国日报报道、Qwen 官方博客及 MarkTechpost 等公开评测,非本站实测。价格数据为发布当日(2026-05-22)QuickRouter 控制台快照,最新价格请以控制台价格页为准。
继续阅读

GLM-5.2 解读:最强开源模型,国产模型离 Claude Opus 只差 1%
基于智谱官方发布与公开评测,解读 GLM-5.2——专注 Coding 与长程任务的 MIT 开源模型,FrontierSWE 仅比 Opus 4.8 低 1%,成本却只有 GPT-5.5 的六分之一。附 QuickRouter 实时价格与国内直连接入。

Claude Fable 5 解读:首破 90% 分析基准,Anthropic 的 Mythos 级旗舰
基于 Anthropic 官方与公开评测,解读 Claude Fable 5——首破 90% 分析基准、金融推理 SOTA、用 1/3 推理 token 拿下前沿物理。附 QuickRouter 实时价格与国内直连。

Claude Opus 4.8 解读:不卷性价比,Anthropic 重押可靠性与工程执行力
基于 Anthropic 官方发布与公开评测,解读 Claude Opus 4.8 的三大升级(诚实度、工程执行力、Agent 调度)。附官方 benchmark 图、QuickRouter 实时价格与国内直连接入代码,帮你判断它值不值、国内怎么用。