评测3 分钟阅读

Gemini 2.5 Pro 评测:LMSYS 榜首,原生多模态与推理的 SOTA

基于 Google DeepMind 官方发布与 LMSYS 公开榜单,解读 Gemini 2.5 Pro——LMSYS 第一、Video-MME 84.8%、代码/数学/科学多项 SOTA、原生思考推理。附 QuickRouter 实时价格与国内直连接入。

Google DeepMind 交出的答卷是 Gemini 2.5 Pro——一个把"原生思考(thinking)"和"原生多模态"作为核心卖点的模型。它在 LMSYS 公开榜单上冲到了第一。

说明

本文的能力描述来自 Google DeepMind 官方发布与 LMSYS 等公开榜单,非本站实测

一、Gemini 2.5 Pro 在卷什么?官方公布的三件事

根据 Google DeepMind 官方发布,升级重点可以归纳成三件事。

1. 原生思考(Thinking)推理

在给出答案前先做内部推理,在数学、科学、代码这类需要多步推理的任务上表现明显更好。其思考流程可以概括为四步:输入问题 → 内部推理思考 → 逐步分解 → 输出答案。这正是它在 AIME 2025、GPQA Diamond 等推理密集型基准上拉开差距的关键。

Gemini 2.5 Pro 原生思考推理流程示意
图 4:原生思考(Thinking)四步推理流程。来源:基于 Google DeepMind 官方描述整理

原生思考的价值

和单纯"加思维链提示"不同,Gemini 2.5 Pro 的思考是模型原生能力,不需要额外提示词工程,在需要多步规划、数学推导、代码生成补全的场景下稳定性更好。

2. 原生多模态:Video-MME 84.8%

Video-MME(视频理解基准)上拿到 84.8%,处于领先水平。

3. LMSYS 榜首 + 代码/数学/科学 SOTA

LMSYS 公开榜单上位列第一,并在代码、数学、科学多项基准上达到 SOTA。

二、核心基准:和上代及友商差多少?

下面这张图汇总了 Gemini 2.5 Pro 在四大公开基准上的成绩,并与 GPT-4.5、Claude 3.7 Sonnet 做横向对比。

Gemini 2.5 Pro 四大基准横向对比(MMLU / HumanEval / GPQA / AIME 2025)
图 1:Gemini 2.5 Pro 在 MMLU、HumanEval、GPQA Diamond、AIME 2025 四项基准上对比 GPT-4.5 与 Claude 3.7 Sonnet。来源:Google DeepMind 官方发布(2025)
Gemini 2.5 Pro 官方视频理解 benchmark(Video-MME)
图 2:Gemini 2.5 Pro 视频理解 benchmark(Video-MME)。来源:developers.googleblog.com

把能力拆得更细一些,从推理、代码、多模态等六个维度给 Gemini 2.5 Pro 打分:

Gemini 2.5 Pro 能力雷达(vs 上一代 Gemini 2.0)
20406080100推理代码数学多模态长上下文工具调用
Gemini 2.5 Pro
Gemini 2.0 Pro

图 3:六维能力对比,实线为 Gemini 2.5 Pro,虚线为上一代 Gemini 2.0 Pro。来源:基于官方公布基准归一化,非本站实测

测评点Gemini 2.5 ProGemini 2.0 Pro
推理能力
★★★★½S 级
★★★★☆A 级
代码能力
★★★★½S 级
★★★★☆A 级
数学能力
★★★★½S 级
★★★½☆B 级
多模态
★★★★½S 级
★★★★☆A 级
长上下文
★★★★½S 级
★★★★☆A 级
工具调用
★★★★½S 级
★★★½☆B 级

表 1:能力维度评分(5 星制,依据官方公布的基准成绩归一化)。来源:Google DeepMind 官方发布,非本站实测

三、它值多少钱?实时价格

实时价格 · gemini-2.5-pro

人民币计价 · 充值比例 ¥1 = $1 · 数据来自 QuickRouter 控制台

国内直连可用

按官方计费规则,人民币充值,无需海外信用卡。查看完整价格表 →

Gemini 2.5 Pro / GPT-5 / Sonnet 4.6 价格对比

人民币 · 每 100 万 tokens · 充值比例 ¥1 = $1 · 数据来自 QuickRouter 控制台

模型厂商类型输入输出
gemini-2.5-pro
gpt-5
claude-sonnet-4-6

四、国内怎么调用?

4 步跑通 · Gemini 2.5 Pro

兼容 OpenAI SDK 与常用工具,国内直连

免费开始 →
01

注册账号

Google 或 GitHub 账号直接登录

02

复制 API Key

控制台创建令牌即可使用

03

配置 Base URL

兼容 OpenAI SDK 与常用工具

04

首次调用成功

一个 Key 调用全球 500+ 大模型

quickrouter_start.py
Ready
from openai import OpenAI

client = OpenAI(
  api_key="YOUR_API_KEY",
  base_url="https://api.quickrouter.ai"
)

response = client.chat.completions.create(
  model="gemini-2.5-pro",
  messages=[{"role": "user", "content": "你好"}]
)

print(response.choices[0].message.content)
调用成功

输出:你好!我是 Gemini 2.5 Pro,有什么可以帮你?

五、该不该用它?

你的场景推荐理由
需要多步推理 / 规划Gemini 2.5 Pro原生思考,推理 SOTA
代码 / 数学 / 科学任务Gemini 2.5 Pro多项 SOTA
视频理解 / 多媒体分析Gemini 2.5 ProVideo-MME 84.8%
长上下文 + 大量输入Gemini 2.5 Pro输入价格友好

信息来源:本文能力描述来自 Google DeepMind 官方发布及 LMSYS 公开榜单,非本站实测。价格数据为发布当日(2025-06-07)QuickRouter 控制台快照,最新价格请以控制台价格页为准。

#Gemini 2.5 Pro#Google#多模态#推理#国内直连

继续阅读

现在免费试用,3 分钟完成第一次 API 调用

注册即送 $0.2 体验额度,复制 API Key 和 Base URL 后即可开始测试。

免费试用