Claude Fable 5 解读:首破 90% 分析基准,Anthropic 的 Mythos 级旗舰
基于 Anthropic 官方与公开评测,解读 Claude Fable 5——首破 90% 分析基准、金融推理 SOTA、用 1/3 推理 token 拿下前沿物理。附 QuickRouter 实时价格与国内直连。
这一代大模型卷的方向,过去一年几乎都被"写代码"和"跑分刷高"两件事占满了。但 Anthropic 在 2026 年 6 月 9 日放出的 Claude Fable 5,把焦点拉回了另一件更难的事:深度推理与分析。
它的核心卖点不是"更便宜",也不是"代码跑分再涨几个点",而是一组更具分量的数字——史上第一个在 Anthropic 核心分析基准上突破 90% 的模型,比自家上一代旗舰 Opus 4.8 领先约 10 个百分点;在金融推理上拿到 SOTA;在前沿物理研究任务上,只用约 1/3 的推理 token 就成为最强模型。
这篇文章基于 Anthropic 官方发布与公开第三方评测,解读 Fable 5 到底强在哪,再从国内开发者的视角回答:它值不值?什么场景值得为它付溢价?国内怎么用、要花多少钱?
说明
本文的能力描述来自 Anthropic 官方发布页与公开评测,非本站实测。涉及的能力结论均标注来源,价格数据为 QuickRouter 控制台实时值。建议你用注册赠送的额度,拿自己的真实任务验证。
一、Fable 5 在卷什么?官方公布的三件事
根据 Anthropic 官方发布(2026-06-09),Fable 5 是 Mythos 级架构首次面向公众开放,升级重点可以归纳成三件事——它们都指向同一个方向:让模型真正会"分析",而不只是会"回答"。
1. 核心分析能力:首破 90% 大关
Anthropic 把"核心分析基准"(core analytics benchmark)视为衡量模型深度推理能力的内部标尺。过去没有任何模型能在这个基准上越过 90%,Fable 5 是第一个——相对上一代旗舰 Opus 4.8 跳升了约 10 个百分点。
这背后的意义不只是"分数更高"。分析类任务(拆解复杂问题、综合多源信息、给出有依据的结论)正是当前大多数模型最薄弱、也最值钱的环节。一个能在分析基准上破 90% 的模型,意味着它开始逼近"能替代高级分析师做判断"的门槛。

2. 金融推理:拿下 SOTA
在金融这类对事实准确性、数值推理、文档理解要求极高的领域,Fable 5 拿到了**当前最强(state-of-the-art)**的表现。据 Vellum 的公开评测,在 Hebbia 金融基准(Hebbia Finance Benchmark)上 Fable 5 领先一众旗舰模型。
金融场景的特点是"错一个数字代价巨大",所以这一项领先对量化研究、财报分析、合规审查等任务有直接价值。

3. 前沿物理研究:用 1/3 token 做到最强
最反直觉的一项:在前沿物理研究任务上,Fable 5 是最强模型,但它只用了约 1/3 的推理 token。换句话说,它不是靠"想得更久"赢的,而是靠"想得更准"赢的。
这对成本敏感的高频推理场景意味着双重收益——既更强,又更省。token 用量降到三分之一,调用成本也大致按比例下降。

二、实测案例:Fable 5 比上一代强在哪?
光看"首破 90%"不够直观。下面把公开评测里几个关键维度的对比做成表格,帮你建立具体认知。以下数据均来自公开评测与官方发布,非本站实测。
案例 1:核心分析基准(官方发布)
| 模型 | Anthropic 核心分析基准 | 相对位置 |
|---|---|---|
| Claude Fable 5 | 首破 90%(史上首个) | 领先约 10 个百分点 |
| Claude Opus 4.8 | 约 80% 一线 | 上一代旗舰基线 |
来源:Anthropic 官方发布,官方发布
这对开发者意味着什么:分析基准衡量的是"给一堆复杂材料,能不能拆解、综合、给出有依据的判断"——这正是数据分析、研究报告、尽职调查这类任务的内核。Fable 5 在这里首次越过 90%,说明它已经能在很多分析场景下独立交付可用的结论,而不是只做初稿。
案例 2:多基准横向领先(公开评测)
| 维度 | 结论 | 数据来源 |
|---|---|---|
| 部分基准 vs Opus 4.8 | Fable 5 领先超过 10% | 公开评测(CNBC 报道) |
| 金融推理(Hebbia 金融基准) | SOTA,当前最强 | 公开评测(Vellum) |
| 前沿物理研究 | 最强,且仅用约 1/3 推理 token | Anthropic 官方发布 |
关于跑分的一个补充
"首破 90%""领先 10%+"等结论均来自官方与公开评测,非本站实测。Anthropic 自家基准的题目构成、难度曲线并未完全公开,不同第三方在真实业务数据上的表现可能有差异。建议拿你自己的真实任务验证。
三、它值多少钱?实时价格
Fable 5 官方定价是 ¥10/百万输入 tokens、¥50/百万输出 tokens(充值比例 ¥1 = $1)。作为 Mythos 级旗舰,它处于 Anthropic 产品线的高端档位。
实时价格 · claude-fable-5
人民币计价 · 充值比例 ¥1 = $1 · 数据来自 QuickRouter 控制台
按官方计费规则,人民币充值,无需海外信用卡。查看完整价格表 →
Fable 5 / Opus 4.8 / Sonnet 4.6 价格对比
人民币 · 每 100 万 tokens · 充值比例 ¥1 = $1 · 数据来自 QuickRouter 控制台
| 模型 | 厂商 | 类型 | 输入 | 输出 |
|---|---|---|---|---|
| claude-fable-5 | — | — | — | — |
| claude-opus-4-8 | — | — | — | — |
| claude-sonnet-4-6 | — | — | — | — |
省 token 就是省钱
别忘了第二部分那条关键结论:Fable 5 在前沿物理任务上只用约 1/3 的推理 token 就做到了最强。如果你的任务偏分析/研究类,token 效率的提升会部分甚至完全抵消它单价上的溢价。
四、国内怎么调用?
4 步接入,几分钟跑通第一次调用:
4 步跑通 · Claude Fable 5
兼容 OpenAI SDK 与常用工具,国内直连
注册账号
Google 或 GitHub 账号直接登录
复制 API Key
控制台创建令牌即可使用
配置 Base URL
兼容 OpenAI SDK 与常用工具
首次调用成功
一个 Key 调用全球 500+ 大模型
from openai import OpenAI
client = OpenAI(
api_key="YOUR_API_KEY",
base_url="https://api.quickrouter.ai"
)
response = client.chat.completions.create(
model="claude-fable-5",
messages=[{"role": "user", "content": "你好"}]
)
print(response.choices[0].message.content)输出:你好!我是 Claude Fable 5,有什么可以帮你?
⚠️ Claude Fable 5 用 Claude Code 时走 Anthropic 原生协议。环境变量:ANTHROPIC_BASE_URL=https://api.quickrouter.ai、ANTHROPIC_MODEL=claude-fable-5
能力总览:六维评分与雷达图
把 Claude Fable 5 与上一代 Claude 3.7 放在六个维度上横向对比,能力差异一目了然:
| 测评点 | Claude Fable 5 | Claude 3.7 |
|---|---|---|
| 推理 | ★★★★½S 级 | ★★★★☆A 级 |
| 代码 | ★★★★☆A 级 | ★★★★☆A 级 |
| 数学 | ★★★★☆A 级 | ★★★★☆A 级 |
| 多模态 | ★★★★½S 级 | ★★★★☆A 级 |
| 长上下文 | ★★★★½S 级 | ★★★★☆A 级 |
| 工具调用 | ★★★★½S 级 | ★★★★☆A 级 |
能力维度评分(5 星制,依据官方公布的基准成绩归一化)。来源:各厂商官方发布,非本站实测
六维能力对比,实线为 Claude Fable 5,虚线为 Claude 3.7。来源:基于官方公布基准归一化,非本站实测
能力总览:六维评分与雷达图
把 Claude Fable 5 与上一代 Claude 3.7 放在六个维度上横向对比,能力差异一目了然:
| 测评点 | Claude Fable 5 | Claude 3.7 |
|---|---|---|
| 推理 | ★★★★½S 级 | ★★★★☆A 级 |
| 代码 | ★★★★☆A 级 | ★★★★☆A 级 |
| 数学 | ★★★★☆A 级 | ★★★★☆A 级 |
| 多模态 | ★★★★½S 级 | ★★★★☆A 级 |
| 长上下文 | ★★★★½S 级 | ★★★★☆A 级 |
| 工具调用 | ★★★★½S 级 | ★★★★☆A 级 |
能力维度评分(5 星制,依据官方公布的基准成绩归一化)。来源:各厂商官方发布,非本站实测
六维能力对比,实线为 Claude Fable 5,虚线为 Claude 3.7。来源:基于官方公布基准归一化,非本站实测
五、该不该用它?
| 你的场景 | 推荐 | 理由 |
|---|---|---|
| 深度分析、研究报告、综合判断 | Fable 5 | 首破 90% 分析基准,深度推理当前最强 |
| 金融/量化、财报、合规类任务 | Fable 5 | Hebbia 金融基准 SOTA |
| 高频 Agent、长链路研究(成本敏感) | Fable 5 | 推理 token 用量约 1/3,性价比更高 |
| 需要零幻觉、最高可靠性兜底 | Claude Opus 4.8 | 上代旗舰在对齐/诚实度上仍是稳妥基线 |
| 日常对话、写小工具、简单问答 | Claude Sonnet 4.6 | 性价比更高,没必要上旗舰 |
一句话总结:Fable 5 不是用来"省钱的",但在"高价值分析"这一类任务上,它可能是"性价比最高"的——因为更强的表现叠加更少的 token,会让单位产出的成本反而下降。
信息来源:本文能力描述来自 Anthropic 官方发布、CNBC 公开报道及 Vellum 公开评测,非本站实测。价格数据为发布当日(2026-06-11)QuickRouter 控制台快照,最新价格请以控制台价格页为准。
继续阅读

GLM-5.2 解读:最强开源模型,国产模型离 Claude Opus 只差 1%
基于智谱官方发布与公开评测,解读 GLM-5.2——专注 Coding 与长程任务的 MIT 开源模型,FrontierSWE 仅比 Opus 4.8 低 1%,成本却只有 GPT-5.5 的六分之一。附 QuickRouter 实时价格与国内直连接入。

Claude Opus 4.8 解读:不卷性价比,Anthropic 重押可靠性与工程执行力
基于 Anthropic 官方发布与公开评测,解读 Claude Opus 4.8 的三大升级(诚实度、工程执行力、Agent 调度)。附官方 benchmark 图、QuickRouter 实时价格与国内直连接入代码,帮你判断它值不值、国内怎么用。

MiniMax M3 解读:第一个把 frontier coding、1M 上下文、原生多模态揉进同一个开源模型
基于 MiniMax 官方发布与公开评测,解读 MiniMax M3——MSA 稀疏注意力架构、1M 上下文、原生多模态 + agentic coding + computer-use,SWE-Bench Pro 跑分据称超越 GPT-5.5。附 QuickRouter 实时价格与国内直连接入。