评测3 分钟阅读2025-06-07

Gemini 2.5 Pro 评测：LMSYS 榜首，原生多模态与推理的 SOTA

基于 Google DeepMind 官方发布与 LMSYS 公开榜单，解读 Gemini 2.5 Pro——LMSYS 第一、Video-MME 84.8%、代码/数学/科学多项 SOTA、原生思考推理。附 QuickRouter 实时价格与国内直连接入。

Google DeepMind 交出的答卷是 Gemini 2.5 Pro——一个把"原生思考（thinking）"和"原生多模态"作为核心卖点的模型。它在 LMSYS 公开榜单上冲到了第一。

说明

本文的能力描述来自 Google DeepMind 官方发布与 LMSYS 等公开榜单，非本站实测。

一、Gemini 2.5 Pro 在卷什么？官方公布的三件事

根据 Google DeepMind 官方发布，升级重点可以归纳成三件事。

1. 原生思考（Thinking）推理

在给出答案前先做内部推理，在数学、科学、代码这类需要多步推理的任务上表现明显更好。其思考流程可以概括为四步：输入问题 → 内部推理思考 → 逐步分解 → 输出答案。这正是它在 AIME 2025、GPQA Diamond 等推理密集型基准上拉开差距的关键。

Gemini 2.5 Pro 原生思考推理流程示意 — 图 4：原生思考（Thinking）四步推理流程。来源：基于 Google DeepMind 官方描述整理

原生思考的价值

和单纯"加思维链提示"不同，Gemini 2.5 Pro 的思考是模型原生能力，不需要额外提示词工程，在需要多步规划、数学推导、代码生成补全的场景下稳定性更好。

2. 原生多模态：Video-MME 84.8%

在 Video-MME（视频理解基准）上拿到 84.8%，处于领先水平。

3. LMSYS 榜首 + 代码/数学/科学 SOTA

在 LMSYS 公开榜单上位列第一，并在代码、数学、科学多项基准上达到 SOTA。

二、核心基准：和上代及友商差多少？

下面这张图汇总了 Gemini 2.5 Pro 在四大公开基准上的成绩，并与 GPT-4.5、Claude 3.7 Sonnet 做横向对比。

Gemini 2.5 Pro 四大基准横向对比（MMLU / HumanEval / GPQA / AIME 2025） — 图 1：Gemini 2.5 Pro 在 MMLU、HumanEval、GPQA Diamond、AIME 2025 四项基准上对比 GPT-4.5 与 Claude 3.7 Sonnet。来源：Google DeepMind 官方发布（2025）

Gemini 2.5 Pro 官方视频理解 benchmark（Video-MME） — 图 2：Gemini 2.5 Pro 视频理解 benchmark（Video-MME）。来源：developers.googleblog.com

把能力拆得更细一些，从推理、代码、多模态等六个维度给 Gemini 2.5 Pro 打分：

Gemini 2.5 Pro 能力雷达（vs 上一代 Gemini 2.0）

Gemini 2.5 Pro

Gemini 2.0 Pro

图 3：六维能力对比，实线为 Gemini 2.5 Pro，虚线为上一代 Gemini 2.0 Pro。来源：基于官方公布基准归一化，非本站实测

测评点	Gemini 2.5 Pro	Gemini 2.0 Pro
推理能力	★★★★½S 级	★★★★☆A 级
代码能力	★★★★½S 级	★★★★☆A 级
数学能力	★★★★½S 级	★★★½☆B 级
多模态	★★★★½S 级	★★★★☆A 级
长上下文	★★★★½S 级	★★★★☆A 级
工具调用	★★★★½S 级	★★★½☆B 级

表 1：能力维度评分（5 星制，依据官方公布的基准成绩归一化）。来源：Google DeepMind 官方发布，非本站实测

三、它值多少钱？实时价格

实时价格 · gemini-2.5-pro

人民币计价 · 充值比例 ¥1 = $1 · 数据来自 QuickRouter 控制台

国内直连可用

按官方计费规则，人民币充值，无需海外信用卡。查看完整价格表 →

Gemini 2.5 Pro / GPT-5 / Sonnet 4.6 价格对比

人民币 · 每 100 万 tokens · 充值比例 ¥1 = $1 · 数据来自 QuickRouter 控制台

模型	厂商	类型	输入	输出
gemini-2.5-pro	—	—	—	—
gpt-5	—	—	—	—
claude-sonnet-4-6	—	—	—	—

四、国内怎么调用？

4 步跑通 · Gemini 2.5 Pro

兼容 OpenAI SDK 与常用工具，国内直连

免费开始 →

注册账号

Google 或 GitHub 账号直接登录

复制 API Key

控制台创建令牌即可使用

配置 Base URL

兼容 OpenAI SDK 与常用工具

首次调用成功

一个 Key 调用全球 500+ 大模型

quickrouter_start.py

Ready

from openai import OpenAI

client = OpenAI(
  api_key="YOUR_API_KEY",
  base_url="https://api.quickrouter.ai"
)

response = client.chat.completions.create(
  model="gemini-2.5-pro",
  messages=[{"role": "user", "content": "你好"}]
)

print(response.choices[0].message.content)

调用成功

输出：你好！我是 Gemini 2.5 Pro，有什么可以帮你？

五、该不该用它？

你的场景	推荐	理由
需要多步推理 / 规划	Gemini 2.5 Pro	原生思考，推理 SOTA
代码 / 数学 / 科学任务	Gemini 2.5 Pro	多项 SOTA
视频理解 / 多媒体分析	Gemini 2.5 Pro	Video-MME 84.8%
长上下文 + 大量输入	Gemini 2.5 Pro	输入价格友好

信息来源：本文能力描述来自 Google DeepMind 官方发布及 LMSYS 公开榜单，非本站实测。价格数据为发布当日（2025-06-07）QuickRouter 控制台快照，最新价格请以控制台价格页为准。

#Gemini 2.5 Pro#Google#多模态#推理#国内直连

继续阅读

评测

GPT Image 2 评测：登顶 Arena 文生图榜首，文字渲染、4K、4 倍提速一次给齐

基于 OpenAI 官方发布与 Latent.Space / VibeDex / Artificial Analysis 公开评测，解读 GPT Image 2——Arena 文生图榜首、接近完美的文字渲染、多语言、4K、比 GPT Image 1 快 4 倍，并横向对比 Nano Banana Pro、Seedream、FLUX.2、Imagen 等主流模型。附 QuickRouter 实时价格与国内直连接入代码。

评测

GPT 5.5 评测：OpenAI 新一代旗舰，推理与多模态全面升级

基于 OpenAI 官方发布与公开评测，解读 GPT 5.5——OpenAI 新一代旗舰，推理与多模态全面升级，输入 $5、输出 $30。附 QuickRouter 实时价格与国内直连接入代码。

评测

DeepSeek V4 Pro 评测：开源 MoE + 多 token 预测，把前沿模型价格打到地板价

基于 DeepSeek 官方文档与公开评测，解读 DeepSeek V4 Pro——开源 MoE 架构、多 token 预测（MTP）、编程与推理双强。输入 ¥3/百万、输出 ¥6/百万，是目前最便宜的前沿模型。附 QuickRouter 实时价格与国内直连接入代码。