新品5 分钟阅读

Qwen3.7-Max 解读:国产登顶、GPQA 超越 Opus 4.6,35 小时无中断 Agent 怎么卷出来的

基于阿里官方发布与公开评测,解读 Qwen3.7-Max——Intelligence Index 56.6 全球第五国产第一,GPQA Diamond 92.4 超越 Claude Opus 4.6,35 小时自主执行。附 QuickRouter 实时价格与国内直连接入。

国产模型和海外旗舰之间那道"还差一点"的天花板,被阿里在 2026 年 5 月用 Qwen3.7-Max 撞了一下。根据中国日报报道Qwen 官方发布,这代旗舰在公开盲测总榜上位列国产第一,推理基准 GPQA Diamond 还反超了 Claude Opus 4.6

但比单点跑分更值得关注的是它的定位转向:官方不再把 Qwen3.7-Max 单纯描述为"对话模型",而是反复强调一个词——Agent。35 小时不间断自主执行、100 万 token 上下文、SWE-bench 上的代码工程能力,共同指向同一个判断:阿里在赌"长程任务执行力"会是下一代大模型的分水岭。

说明

本文的能力描述来自阿里官方发布页与公开评测,非本站实测。涉及的能力结论均标注来源,价格数据为 QuickRouter 控制台实时值。建议你用注册赠送的额度,拿自己的真实任务验证。

一、Qwen3.7-Max 在卷什么?官方公布的三件事

1. 推理登顶:GPQA Diamond 反超 Opus 4.6

在被誉为"最难科学推理基准"的 GPQA Diamond 上,Qwen3.7-Max 拿到 92.4反超 Claude Opus 4.6 的 91.3。在第三方机构 Artificial Analysis 的 Intelligence Index 综合榜上,它以 56.6 的得分位列全球第五、国产第一

2. 工程执行力:SWE-bench Verified 72.3%

根据公开评测,它在 SWE-bench Verified 上拿到 72.3%,位列国产第一、全球前三。SWE-bench 测的是"能不能像工程师一样修真实仓库里的 issue"——读懂代码库、定位问题、跨文件改动并让测试通过。

3. Agent 持续力:35 小时无中断自主执行

官方展示了 Qwen3.7-Max 连续 35 小时自主执行任务、零中断的能力。配合 100 万 token 的上下文窗口,它能在超长任务流里保持目标对齐、不被中途打断重置。

二、实测案例(公开评测)

案例 1:综合智能(Intelligence Index)

模型Intelligence Index全球排名
海外旗舰前三57+#1–#3
Qwen3.7-Max56.6#5(国产 #1)

来源:Artificial AnalysisMarkTechpost,公开评测

案例 2:硬核推理(GPQA Diamond)

模型GPQA Diamond结论
Qwen3.7-Max92.4反超
Claude Opus 4.691.3被反超

来源:Qwen 官方博客,公开评测

案例 3:软件工程与 Agent 持续力

维度Qwen3.7-Max
SWE-bench Verified72.3%(国产第一、全球前三)
上下文窗口1M token
自主执行时长35 小时(零中断)

来源:Qwen 官方博客Zeniteq,公开评测

关于跑分的一个补充

公开评测机构也提醒:SWE-bench 等基准的绝对分数对评测集版本敏感,不同来源给出的数字可能存在差异。建议以官方博客最新数据为准。

三、价格

实时价格 · qwen3.7-max

人民币计价 · 充值比例 ¥1 = $1 · 数据来自 QuickRouter 控制台

国内直连可用

按官方计费规则,人民币充值,无需海外信用卡。查看完整价格表 →

Qwen3.7-Max / Plus / Opus 4.8 价格对比

人民币 · 每 100 万 tokens · 充值比例 ¥1 = $1 · 数据来自 QuickRouter 控制台

模型厂商类型输入输出
qwen3.7-max
qwen3.7-plus
claude-opus-4-8

省钱要点

高频、中低复杂度任务优先用 Qwen3.7-Plus;只有需要顶配推理、超长 Agent 任务时再上 Max。

四、国内怎么调用?

4 步跑通 · Qwen3.7-Max

兼容 OpenAI SDK 与常用工具,国内直连

免费开始 →
01

注册账号

Google 或 GitHub 账号直接登录

02

复制 API Key

控制台创建令牌即可使用

03

配置 Base URL

兼容 OpenAI SDK 与常用工具

04

首次调用成功

一个 Key 调用全球 500+ 大模型

quickrouter_start.py
Ready
from openai import OpenAI

client = OpenAI(
  api_key="YOUR_API_KEY",
  base_url="https://api.quickrouter.ai"
)

response = client.chat.completions.create(
  model="qwen3.7-max",
  messages=[{"role": "user", "content": "你好"}]
)

print(response.choices[0].message.content)
调用成功

输出:你好!我是 Qwen3.7-Max,有什么可以帮你?

核心基准横向对比图
Qwen 3.7 Max 四大基准横向对比(MMLU/HumanEval/GPQA/AIME)vs Qwen3 Max 与 GPT-5。来源:基于阿里官方及公开基准整理,非本站实测

能力总览:六维评分与雷达图

把 Qwen 3.7 Max 与上一代 Qwen 3 Max 放在六个维度上横向对比,能力差异一目了然:

测评点Qwen 3.7 MaxQwen 3 Max
推理
★★★★½S 级
★★★★☆A 级
代码
★★★★½S 级
★★★★☆A 级
数学
★★★★½S 级
★★★★☆A 级
多模态
★★★★☆A 级
★★★★☆A 级
长上下文
★★★★½S 级
★★★★☆A 级
工具调用
★★★★☆A 级
★★★★☆A 级

能力维度评分(5 星制,依据官方公布的基准成绩归一化)。来源:各厂商官方发布,非本站实测

Qwen 3.7 Max 能力雷达(vs Qwen 3 Max)
20406080100推理代码数学多模态长上下文工具调用
Qwen 3.7 Max
Qwen 3 Max

六维能力对比,实线为 Qwen 3.7 Max,虚线为 Qwen 3 Max。来源:基于官方公布基准归一化,非本站实测

能力总览:六维评分与雷达图

把 Qwen 3.7 Max 与上一代 Qwen 3 Max 放在六个维度上横向对比,能力差异一目了然:

测评点Qwen 3.7 MaxQwen 3 Max
推理
★★★★½S 级
★★★★☆A 级
代码
★★★★½S 级
★★★★☆A 级
数学
★★★★½S 级
★★★★☆A 级
多模态
★★★★☆A 级
★★★★☆A 级
长上下文
★★★★½S 级
★★★★☆A 级
工具调用
★★★★☆A 级
★★★★☆A 级

能力维度评分(5 星制,依据官方公布的基准成绩归一化)。来源:各厂商官方发布,非本站实测

Qwen 3.7 Max 能力雷达(vs Qwen 3 Max)
20406080100推理代码数学多模态长上下文工具调用
Qwen 3.7 Max
Qwen 3 Max

六维能力对比,实线为 Qwen 3.7 Max,虚线为 Qwen 3 Max。来源:基于官方公布基准归一化,非本站实测

五、该不该用它?

你的场景推荐理由
硬核推理(科研/数学/复杂逻辑)Qwen3.7-MaxGPQA Diamond 92.4 反超 Opus 4.6
大型工程任务、跨仓库代码改造Qwen3.7-MaxSWE-bench Verified 国产第一
长程自动化 AgentQwen3.7-Max35 小时无中断 + 1M 上下文
中文场景、国内合规敏感业务Qwen3.7-Max国产旗舰,国内直连便于合规
日常对话、简单代码Qwen3.7-Plus性价比更高

信息来源:本文能力描述来自 中国日报报道Qwen 官方博客MarkTechpost 等公开评测,非本站实测。价格数据为发布当日(2026-05-22)QuickRouter 控制台快照,最新价格请以控制台价格页为准。

#Qwen3.7-Max#阿里云百炼#模型解读#Agent#国内直连

继续阅读

现在免费试用,3 分钟完成第一次 API 调用

注册即送 $0.2 体验额度,复制 API Key 和 Base URL 后即可开始测试。

免费试用