新品5 分钟阅读2026-05-22

Qwen3.7-Max 解读：国产登顶、GPQA 超越 Opus 4.6，35 小时无中断 Agent 怎么卷出来的

基于阿里官方发布与公开评测，解读 Qwen3.7-Max——Intelligence Index 56.6 全球第五国产第一，GPQA Diamond 92.4 超越 Claude Opus 4.6，35 小时自主执行。附 QuickRouter 实时价格与国内直连接入。

国产模型和海外旗舰之间那道"还差一点"的天花板，被阿里在 2026 年 5 月用 Qwen3.7-Max 撞了一下。根据中国日报报道与 Qwen 官方发布，这代旗舰在公开盲测总榜上位列国产第一，推理基准 GPQA Diamond 还反超了 Claude Opus 4.6。

但比单点跑分更值得关注的是它的定位转向：官方不再把 Qwen3.7-Max 单纯描述为"对话模型"，而是反复强调一个词——Agent。35 小时不间断自主执行、100 万 token 上下文、SWE-bench 上的代码工程能力，共同指向同一个判断：阿里在赌"长程任务执行力"会是下一代大模型的分水岭。

说明

本文的能力描述来自阿里官方发布页与公开评测，非本站实测。涉及的能力结论均标注来源，价格数据为 QuickRouter 控制台实时值。建议你用注册赠送的额度，拿自己的真实任务验证。

一、Qwen3.7-Max 在卷什么？官方公布的三件事

1. 推理登顶：GPQA Diamond 反超 Opus 4.6

在被誉为"最难科学推理基准"的 GPQA Diamond 上，Qwen3.7-Max 拿到 92.4，反超 Claude Opus 4.6 的 91.3。在第三方机构 Artificial Analysis 的 Intelligence Index 综合榜上，它以 56.6 的得分位列全球第五、国产第一。

2. 工程执行力：SWE-bench Verified 72.3%

根据公开评测，它在 SWE-bench Verified 上拿到 72.3%，位列国产第一、全球前三。SWE-bench 测的是"能不能像工程师一样修真实仓库里的 issue"——读懂代码库、定位问题、跨文件改动并让测试通过。

3. Agent 持续力：35 小时无中断自主执行

官方展示了 Qwen3.7-Max 连续 35 小时自主执行任务、零中断的能力。配合 100 万 token 的上下文窗口，它能在超长任务流里保持目标对齐、不被中途打断重置。

二、实测案例（公开评测）

案例 1：综合智能（Intelligence Index）

模型	Intelligence Index	全球排名
海外旗舰前三	57+	#1–#3
Qwen3.7-Max	56.6	#5（国产 #1）

来源：Artificial Analysis、MarkTechpost，公开评测

案例 2：硬核推理（GPQA Diamond）

模型	GPQA Diamond	结论
Qwen3.7-Max	92.4	反超
Claude Opus 4.6	91.3	被反超

来源：Qwen 官方博客，公开评测

案例 3：软件工程与 Agent 持续力

维度	Qwen3.7-Max
SWE-bench Verified	72.3%（国产第一、全球前三）
上下文窗口	1M token
自主执行时长	35 小时（零中断）

来源：Qwen 官方博客、Zeniteq，公开评测

关于跑分的一个补充

公开评测机构也提醒：SWE-bench 等基准的绝对分数对评测集版本敏感，不同来源给出的数字可能存在差异。建议以官方博客最新数据为准。

三、价格

实时价格 · qwen3.7-max

人民币计价 · 充值比例 ¥1 = $1 · 数据来自 QuickRouter 控制台

国内直连可用

按官方计费规则，人民币充值，无需海外信用卡。查看完整价格表 →

Qwen3.7-Max / Plus / Opus 4.8 价格对比

人民币 · 每 100 万 tokens · 充值比例 ¥1 = $1 · 数据来自 QuickRouter 控制台

模型	厂商	类型	输入	输出
qwen3.7-max	—	—	—	—
qwen3.7-plus	—	—	—	—
claude-opus-4-8	—	—	—	—

省钱要点

高频、中低复杂度任务优先用 Qwen3.7-Plus；只有需要顶配推理、超长 Agent 任务时再上 Max。

四、国内怎么调用？

4 步跑通 · Qwen3.7-Max

兼容 OpenAI SDK 与常用工具，国内直连

免费开始 →

注册账号

Google 或 GitHub 账号直接登录

复制 API Key

控制台创建令牌即可使用

配置 Base URL

兼容 OpenAI SDK 与常用工具

首次调用成功

一个 Key 调用全球 500+ 大模型

quickrouter_start.py

Ready

from openai import OpenAI

client = OpenAI(
  api_key="YOUR_API_KEY",
  base_url="https://api.quickrouter.ai"
)

response = client.chat.completions.create(
  model="qwen3.7-max",
  messages=[{"role": "user", "content": "你好"}]
)

print(response.choices[0].message.content)

调用成功

输出：你好！我是 Qwen3.7-Max，有什么可以帮你？

核心基准横向对比图 — Qwen 3.7 Max 四大基准横向对比（MMLU/HumanEval/GPQA/AIME）vs Qwen3 Max 与 GPT-5。来源：基于阿里官方及公开基准整理，非本站实测

能力总览：六维评分与雷达图

把 Qwen 3.7 Max 与上一代 Qwen 3 Max 放在六个维度上横向对比，能力差异一目了然：

测评点	Qwen 3.7 Max	Qwen 3 Max
推理	★★★★½S 级	★★★★☆A 级
代码	★★★★½S 级	★★★★☆A 级
数学	★★★★½S 级	★★★★☆A 级
多模态	★★★★☆A 级	★★★★☆A 级
长上下文	★★★★½S 级	★★★★☆A 级
工具调用	★★★★☆A 级	★★★★☆A 级

能力维度评分（5 星制，依据官方公布的基准成绩归一化）。来源：各厂商官方发布，非本站实测

Qwen 3.7 Max 能力雷达（vs Qwen 3 Max）

Qwen 3.7 Max

Qwen 3 Max

六维能力对比，实线为 Qwen 3.7 Max，虚线为 Qwen 3 Max。来源：基于官方公布基准归一化，非本站实测