Kimi K2.5 解读:开源 ~1T 参数,视觉 Agent 与 100 子智能体调度
基于 Moonshot 官方发布与公开评测,解读 Kimi K2.5——约 1T 参数开源、视觉 Agent 智能体(Agent Swarm 最多 100 子智能体)、256K 上下文、AIME 2025 96.1%、HLE 50.2%。附 QuickRouter 实时价格与国内直连接入。
Moonshot(月之暗面)在 2026 年 1 月交出的答卷是 Kimi K2.5:一个约 1 万亿参数的开源模型,主打视觉智能体(Visual Agentic Intelligence),能调度最多 100 个子智能体协同完成任务。
说明
本文的能力描述来自 Moonshot 官方发布与公开第三方评测,非本站实测。
一、Kimi K2.5 在卷什么?官方公布的三件事
根据 Moonshot 官方发布(2026-01-27),升级重点可以归纳成三件事。
1. 约 1T 参数开源 + 256K 上下文
约 1 万亿参数的开源模型,支持 256K 上下文窗口。
2. 视觉智能体(Visual Agentic Intelligence)
支持 Agent Swarm,可以调度最多 100 个子智能体并行执行任务。
3. 推理与工程跑分领先
| 基准 | Kimi K2.5 |
|---|---|
| AIME 2025 | 96.1% |
| HLE | 50.2% |
| SWE-Bench | 顶级梯队 |
来源:Moonshot 官方发布,2026-01

二、Kimi K2.5 比 K2 强在哪?
案例 1:推理与数学
| 对比维度 | Kimi K2.5 | Kimi K2 | GLM-5.2 |
|---|---|---|---|
| AIME 2025 | 96.1% | 较低 | 较高 |
| HLE | 50.2% | 较低 | 中等 |
来源:Moonshot 官方发布,2026-01
案例 2:工程与智能体调度
| 对比维度 | Kimi K2.5 | Kimi K2 |
|---|---|---|
| SWE-Bench | 顶级梯队 | 中等 |
| 视觉智能体 | 支持 | 较弱 |
| 子智能体调度 | Agent Swarm,最多 100 个 | 无 |
三、它值多少钱?实时价格
Kimi K2.5 / K2 / GLM-5.2 价格对比
人民币 · 每 100 万 tokens · 充值比例 ¥1 = $1 · 数据来自 QuickRouter 控制台
| 模型 | 厂商 | 类型 | 输入 | 输出 |
|---|---|---|---|---|
| kimi-k2.5 | — | — | — | — |
| kimi-k2 | — | — | — | — |
| glm-5.2 | — | — | — | — |
四、国内怎么调用?
4 步跑通 · Kimi K2.5
兼容 OpenAI SDK 与常用工具,国内直连
注册账号
Google 或 GitHub 账号直接登录
复制 API Key
控制台创建令牌即可使用
配置 Base URL
兼容 OpenAI SDK 与常用工具
首次调用成功
一个 Key 调用全球 500+ 大模型
from openai import OpenAI
client = OpenAI(
api_key="YOUR_API_KEY",
base_url="https://api.quickrouter.ai"
)
response = client.chat.completions.create(
model="kimi-k2.5",
messages=[{"role": "user", "content": "你好"}]
)
print(response.choices[0].message.content)输出:你好!我是 Kimi K2.5,有什么可以帮你?
能力总览:六维评分与雷达图
把 Kimi K2.5 与上一代 Kimi K2 放在六个维度上横向对比,能力差异一目了然:
| 测评点 | Kimi K2.5 | Kimi K2 |
|---|---|---|
| 推理 | ★★★★☆A 级 | ★★★★☆A 级 |
| 代码 | ★★★★½S 级 | ★★★★☆A 级 |
| 数学 | ★★★★☆A 级 | ★★★★☆A 级 |
| 多模态 | ★★★★☆A 级 | ★★★★☆A 级 |
| 长上下文 | ★★★★½S 级 | ★★★★½S 级 |
| 工具调用 | ★★★★☆A 级 | ★★★★☆A 级 |
能力维度评分(5 星制,依据官方公布的基准成绩归一化)。来源:各厂商官方发布,非本站实测
六维能力对比,实线为 Kimi K2.5,虚线为 Kimi K2。来源:基于官方公布基准归一化,非本站实测
能力总览:六维评分与雷达图
把 Kimi K2.5 与上一代 Kimi K2 放在六个维度上横向对比,能力差异一目了然:
| 测评点 | Kimi K2.5 | Kimi K2 |
|---|---|---|
| 推理 | ★★★★☆A 级 | ★★★★☆A 级 |
| 代码 | ★★★★½S 级 | ★★★★☆A 级 |
| 数学 | ★★★★☆A 级 | ★★★★☆A 级 |
| 多模态 | ★★★★☆A 级 | ★★★★☆A 级 |
| 长上下文 | ★★★★½S 级 | ★★★★½S 级 |
| 工具调用 | ★★★★☆A 级 | ★★★★☆A 级 |
能力维度评分(5 星制,依据官方公布的基准成绩归一化)。来源:各厂商官方发布,非本站实测
六维能力对比,实线为 Kimi K2.5,虚线为 Kimi K2。来源:基于官方公布基准归一化,非本站实测
五、该不该用它?
| 你的场景 | 推荐 | 理由 |
|---|---|---|
| 高难度推理 / 数学 | Kimi K2.5 | AIME 96.1%、HLE 50.2% |
| 多步 Agent / 批量并行 | Kimi K2.5 | Agent Swarm,最多 100 子智能体 |
| 视觉智能体 | Kimi K2.5 | 主打视觉 agentic 能力 |
| 超长上下文 | Kimi K2.5 | 256K 上下文 + 大参数 |
信息来源:本文能力描述来自 Moonshot 官方发布及公开评测,非本站实测。价格数据为发布当日(2026-01-29)QuickRouter 控制台快照,最新价格请以控制台价格页为准。
继续阅读

GLM-5.2 解读:最强开源模型,国产模型离 Claude Opus 只差 1%
基于智谱官方发布与公开评测,解读 GLM-5.2——专注 Coding 与长程任务的 MIT 开源模型,FrontierSWE 仅比 Opus 4.8 低 1%,成本却只有 GPT-5.5 的六分之一。附 QuickRouter 实时价格与国内直连接入。

Claude Fable 5 解读:首破 90% 分析基准,Anthropic 的 Mythos 级旗舰
基于 Anthropic 官方与公开评测,解读 Claude Fable 5——首破 90% 分析基准、金融推理 SOTA、用 1/3 推理 token 拿下前沿物理。附 QuickRouter 实时价格与国内直连。

Claude Opus 4.8 解读:不卷性价比,Anthropic 重押可靠性与工程执行力
基于 Anthropic 官方发布与公开评测,解读 Claude Opus 4.8 的三大升级(诚实度、工程执行力、Agent 调度)。附官方 benchmark 图、QuickRouter 实时价格与国内直连接入代码,帮你判断它值不值、国内怎么用。