Fable 测评一周的真实感受：这才是真正的下一代模型，但是也有不少“怪癖”！（译）

本文经原作者授权转载，版权归原作者所有。原作者：Berryxia.AI（@berryxia）。

【Matthew Berman 最新测评】Fable（Mythos）测了一周：这才是真正的下一代模型，但也有一堆“怪癖”！

原帖见👇

申明：本文由海外博主@MatthewBerman 测评，以下的“我”指其本人哈，请悉知。

tl;dr：我这周一直在狂测 Fable（Mythos），用完之后只有一个感觉——它和其他模型完全不是一个次元的东西。

无论是使用体验还是定价，都给我一种“下一代正式登场”的震撼。但它也确实有一些很明显的怪癖。

优点篇（The Good）

Workflow 模式直接封神。我随便扔给它一个“full code review”的指令，结果它瞬间拉起几百个 agent 并行狂干，给我项目里的几乎每个文件都单独配了一个专属 agent。

bug、边缘 case、文档缺失、UX 体验问题……全都被它挖出来了。

我之前给 Claude、GPT 下过一模一样的 prompt，它们找出来的问题连它一半都不到。

更离谱的是它的自主性。比以前任何 Claude 或 GPT 都敢自己闷头干活，一干就是好几个小时。

最关键的是——我敢把任务彻底扔给它。

它会毫不犹豫地烧一大堆 token，直到把目标彻底干完。

每次我一启动 Fable，就感觉它像接了个史诗级大项目一样，斗志满满。

我现在给它扔超级复杂、长周期的任务时，信心前所未有的足。

几乎想不出有什么任务能把它难住，它也特别“渴望”挑战这种硬骨头。

这就是 Fable 最亮眼的地方——超长时域任务（long horizon tasks）。

我现在都想象不出它的超长时域任务极限到底在哪。

槽点篇（Quirks）

不过它也不是无敌神模型，有几个毛病还挺明显：

我专门更新了 claude.md 来压它，结果还是压不住。

我得反复让它“说人话”。

不光是字多，信息密度高到让我一度怀疑自己是不是变笨了……

说真的，信息密度这事儿我以前真没那么重视。

现在发现：在固定 token 预算下，谁能塞更多有效信息，谁就等于“更聪明且更便宜”。

这也是未来 agent 自己发明超高密度语言的绝佳理由。

疯狂问 clarifying questions 一个简单 prompt 能被它拆成：问问题 → 总结我的回答 → 确认总结 → 出 spec → 确认 spec → 确认 agent 策略（并行还是串行）→ 最后才开始干活…… 我其实希望它自己做决策。Anthropic 官方说更新 system prompt 之后就能好。
速度真的慢比之前的 Opus 甚至 GPT 都慢。启动慢，思考过程也慢，和我以前爱 Opus 的点完全相反（Opus 以前又快又会抄近道）。

Fable 哪怕简单任务也慢慢爬，我看着计时器往上跳，输出 tokens 半天不动，五分钟才用几千 token。它就是想把每件事都做到极致彻底，这就必然要花时间。

总结 & 小贴士

Pro tip：把 effort level 直接拉到最低，比你以为的还低。

它在中档的时候就已经想得非常非常多，低档依然强得离谱，只是思考时间会短一些。

所有这些怪癖其实都是能修的——模型优化 + 更多算力提速，再加上 fine-tuning/RL 和 system prompt 调教，就能解决啰嗦和过度谨慎的问题。

最终结果： Fable5 真的强到离谱，我现在还在摸索怎么把它用出最爽的体验。

它给我的感觉是——它就想吃最难的任务，简单活儿都觉得不过瘾。

这是全新测试运行的第一次公开亮相，就已经是我用过的最强模型了。

这点，才是我这几天一直忍不住反复思考的。

Berryxia：原文来自 Matthew Berman，实际测评等我门自己来看看。

目前这么高的价格来说，还是用起我的opus4.7 吧，博主大哥说的就是简单的任务就没有必要选择它。

难啃的骨头更适合它，而不是拿小Case测试它。就一点才大用的感觉，杀鸡焉用牛刀啊！