MiniMax M3 解读:第一个把 frontier coding、1M 上下文、原生多模态揉进同一个开源模型
基于 MiniMax 官方发布与公开评测,解读 MiniMax M3——MSA 稀疏注意力架构、1M 上下文、原生多模态 + agentic coding + computer-use,SWE-Bench Pro 跑分据称超越 GPT-5.5。附 QuickRouter 实时价格与国内直连接入。
2026 年的大模型赛道,大多在卷一个维度:要么卷便宜、要么卷上下文、要么卷多模态。MiniMax 在 6 月 1 日发布的 M3 给出的赌注不太一样——它想同时把三件事做到 frontier 水平:前沿的编程能力、100 万 token 的上下文窗口、原生多模态。
这是官方自称的"第一个把 frontier coding + 1M 上下文 + 原生多模态揉进同一个开源模型"的尝试。更激进的,是它采用了全新的 MSA(MiniMax Sparse Attention)架构,并据公开评测称其在 SWE-Bench Pro 上的跑分超过了 GPT-5.5。
说明
本文的能力描述来自 MiniMax 官方发布与公开第三方评测,非本站实测。其中 SWE-Bench Pro 超越 GPT-5.5 的说法,部分媒体指出尚待独立复测验证,请留意甄别。
一、MiniMax M3 在卷什么?官方公布的三件事
1. MSA:MiniMax Sparse Attention 新架构
M3 最核心的工程亮点是全新的 MSA(MiniMax Sparse Attention)架构。传统 Transformer 注意力机制是"全连接"的,上下文越长计算量呈平方级膨胀。MSA 的思路是稀疏化:只让每个 token 关注真正需要关联的部分,从而在超长上下文下把计算开销压下来。
正是这套架构让 M3 能在不爆炸的算力预算下跑通 100 万 token 上下文。

2. 第一个"三位一体"的开源模型
| 能力维度 | M3 的定位 |
|---|---|
| Frontier 编程 | 接近闭源旗舰的 agentic coding 能力 |
| 1M 上下文 | 100 万 token 原生窗口(MSA 支撑) |
| 原生多模态 | 图文输入,非外挂拼接 |
3. Agentic coding + computer-use
M3 不仅会写代码,还具备操作计算机界面(computer-use)的潜力——看截图、定位元素、执行点击/输入。
来源:MiniMax 官方博客
二、实测案例:公开评测数据
案例 1:SWE-Bench Pro
| 基准 | M3(公开评测) | 对比 | 备注 |
|---|---|---|---|
| SWE-Bench Pro | 据称超越 GPT-5.5 | 领先闭源旗舰 | 部分媒体指出尚待独立复测 |
来源:公开第三方评测,2026-06

案例 2:长上下文
| 任务类型 | 1M 上下文的典型价值 |
|---|---|
| 整仓库代码理解 | 单次读入完整项目,跨文件追踪依赖 |
| 超长文档总结 | 减少切分检索,降低信息丢失 |
| 多轮 Agent 上下文累积 | 长程 agent 任务不掉链子 |
案例 3:多模态 + computer-use
| 能力组合 | 典型场景 |
|---|---|
| 多模态 + agentic coding | 看设计稿/截图 → 输出对应代码 |
| 多模态 + computer-use | 自动化界面操作、截图诊断 |
关于跑分的补充
computer-use 类能力在生产环境中的可靠性通常远低于跑分所示,建议优先用真实任务验证。
三、价格
MiniMax M3 / M2.7 / GLM-5.2 价格对比
人民币 · 每 100 万 tokens · 充值比例 ¥1 = $1 · 数据来自 QuickRouter 控制台
| 模型 | 厂商 | 类型 | 输入 | 输出 |
|---|---|---|---|---|
| MiniMax-M3 | — | — | — | — |
| MiniMax-M2.7 | — | — | — | — |
| glm-5.2 | — | — | — | — |
怎么选更省钱
M3 和 M2.7 定价档位相同。如果不需要 1M 上下文或多模态,前代 M2.7 更划算。
四、国内怎么调用?
4 步跑通 · MiniMax M3
兼容 OpenAI SDK 与常用工具,国内直连
注册账号
Google 或 GitHub 账号直接登录
复制 API Key
控制台创建令牌即可使用
配置 Base URL
兼容 OpenAI SDK 与常用工具
首次调用成功
一个 Key 调用全球 500+ 大模型
from openai import OpenAI
client = OpenAI(
api_key="YOUR_API_KEY",
base_url="https://api.quickrouter.ai"
)
response = client.chat.completions.create(
model="MiniMax-M3",
messages=[{"role": "user", "content": "你好"}]
)
print(response.choices[0].message.content)输出:你好!我是 MiniMax M3,有什么可以帮你?
能力总览:六维评分与雷达图
把 MiniMax M3 与上一代 MiniMax M2 放在六个维度上横向对比,能力差异一目了然:
| 测评点 | MiniMax M3 | MiniMax M2 |
|---|---|---|
| 推理 | ★★★★☆A 级 | ★★★★☆A 级 |
| 代码 | ★★★★☆A 级 | ★★★★☆A 级 |
| 数学 | ★★★★☆A 级 | ★★★★☆A 级 |
| 多模态 | ★★★★☆A 级 | ★★★½☆B 级 |
| 长上下文 | ★★★★½S 级 | ★★★★½S 级 |
| 工具调用 | ★★★★☆A 级 | ★★★½☆B 级 |
能力维度评分(5 星制,依据官方公布的基准成绩归一化)。来源:各厂商官方发布,非本站实测
六维能力对比,实线为 MiniMax M3,虚线为 MiniMax M2。来源:基于官方公布基准归一化,非本站实测
能力总览:六维评分与雷达图
把 MiniMax M3 与上一代 MiniMax M2 放在六个维度上横向对比,能力差异一目了然:
| 测评点 | MiniMax M3 | MiniMax M2 |
|---|---|---|
| 推理 | ★★★★☆A 级 | ★★★★☆A 级 |
| 代码 | ★★★★☆A 级 | ★★★★☆A 级 |
| 数学 | ★★★★☆A 级 | ★★★★☆A 级 |
| 多模态 | ★★★★☆A 级 | ★★★½☆B 级 |
| 长上下文 | ★★★★½S 级 | ★★★★½S 级 |
| 工具调用 | ★★★★☆A 级 | ★★★½☆B 级 |
能力维度评分(5 星制,依据官方公布的基准成绩归一化)。来源:各厂商官方发布,非本站实测
六维能力对比,实线为 MiniMax M3,虚线为 MiniMax M2。来源:基于官方公布基准归一化,非本站实测
五、该不该用它?
| 你的场景 | 推荐 | 理由 |
|---|---|---|
| 长程编程 + 整仓库理解 | MiniMax M3 | 1M 上下文 + MSA |
| 多模态驱动编程 | MiniMax M3 | 原生多模态 + agentic coding |
| 纯编程、不需超长上下文 | M2.7 或 GLM-5.2 | 价格同档,能力够用 |
| 需要最高可靠性/零幻觉 | 闭源旗舰 | 开源模型在对齐度上仍有差距 |
信息来源:本文能力描述来自 MiniMax 官方发布及公开第三方评测,非本站实测。其中 SWE-Bench Pro 超越 GPT-5.5 的结论,部分媒体指出尚待独立复测验证。价格数据为发布当日(2026-06-03)QuickRouter 控制台快照,最新价格请以控制台价格页为准。
继续阅读

GLM-5.2 解读:最强开源模型,国产模型离 Claude Opus 只差 1%
基于智谱官方发布与公开评测,解读 GLM-5.2——专注 Coding 与长程任务的 MIT 开源模型,FrontierSWE 仅比 Opus 4.8 低 1%,成本却只有 GPT-5.5 的六分之一。附 QuickRouter 实时价格与国内直连接入。

Claude Fable 5 解读:首破 90% 分析基准,Anthropic 的 Mythos 级旗舰
基于 Anthropic 官方与公开评测,解读 Claude Fable 5——首破 90% 分析基准、金融推理 SOTA、用 1/3 推理 token 拿下前沿物理。附 QuickRouter 实时价格与国内直连。

Claude Opus 4.8 解读:不卷性价比,Anthropic 重押可靠性与工程执行力
基于 Anthropic 官方发布与公开评测,解读 Claude Opus 4.8 的三大升级(诚实度、工程执行力、Agent 调度)。附官方 benchmark 图、QuickRouter 实时价格与国内直连接入代码,帮你判断它值不值、国内怎么用。