本文经原作者授权转载,版权归原作者所有。原作者:Berryxia.AI(@berryxia)。
【Matthew Berman 最新测评】Fable(Mythos)测了一周:这才是真正的下一代模型,但也有一堆“怪癖”!
原帖见👇
申明: 本文由海外博主@MatthewBerman 测评,以下的“我”指其本人哈,请悉知。
tl;dr:我这周一直在狂测 Fable(Mythos),用完之后只有一个感觉——它和其他模型完全不是一个次元的东西。
无论是使用体验还是定价,都给我一种“下一代正式登场”的震撼。但它也确实有一些很明显的怪癖。
优点篇(The Good)
Workflow 模式直接封神。我随便扔给它一个“full code review”的指令,结果它瞬间拉起几百个 agent 并行狂干,给我项目里的几乎每个文件都单独配了一个专属 agent。
bug、边缘 case、文档缺失、UX 体验问题……全都被它挖出来了。
我之前给 Claude、GPT 下过一模一样的 prompt,它们找出来的问题连它一半都不到。
更离谱的是它的自主性。比以前任何 Claude 或 GPT 都敢自己闷头干活,一干就是好几个小时。
最关键的是——我敢把任务彻底扔给它。
它会毫不犹豫地烧一大堆 token,直到把目标彻底干完。
每次我一启动 Fable,就感觉它像接了个史诗级大项目一样,斗志满满。
我现在给它扔超级复杂、长周期的任务时,信心前所未有的足。
几乎想不出有什么任务能把它难住,它也特别“渴望”挑战这种硬骨头。
这就是 Fable 最亮眼的地方——超长时域任务(long horizon tasks)。
我现在都想象不出它的超长时域任务 极限到底在哪。
槽点篇(Quirks)
不过它也不是无敌神模型,有几个毛病还挺明显:
- 极度啰嗦 + 信息密度爆炸 解释一个东西能直接钻进草丛深处。
我专门更新了 claude.md 来压它,结果还是压不住。
我得反复让它“说人话”。
不光是字多,信息密度高到让我一度怀疑自己是不是变笨了……
说真的,信息密度这事儿我以前真没那么重视。
现在发现:在固定 token 预算下,谁能塞更多有效信息,谁就等于“更聪明且更便宜”。
这也是未来 agent 自己发明超高密度语言的绝佳理由。
- 疯狂问 clarifying questions 一个简单 prompt 能被它拆成:问问题 → 总结我的回答 → 确认总结 → 出 spec → 确认 spec → 确认 agent 策略(并行还是串行)→ 最后才开始干活…… 我其实希望它自己做决策。Anthropic 官方说更新 system prompt 之后就能好。
- 速度真的慢 比之前的 Opus 甚至 GPT 都慢。启动慢,思考过程也慢,和我以前爱 Opus 的点完全相反(Opus 以前又快又会抄近道)。
Fable 哪怕简单任务也慢慢爬,我看着计时器往上跳,输出 tokens 半天不动,五分钟才用几千 token。它就是想把每件事都做到极致彻底,这就必然要花时间。
总结 & 小贴士
Pro tip:把 effort level 直接拉到最低,比你以为的还低。
它在中档的时候就已经想得非常非常多,低档依然强得离谱,只是思考时间会短一些。
所有这些怪癖其实都是能修的——模型优化 + 更多算力提速,再加上 fine-tuning/RL 和 system prompt 调教,就能解决啰嗦和过度谨慎的问题。
最终 结果: Fable5 真的强到离谱,我现在还在摸索怎么把它用出最爽的体验。
它给我的感觉是——它就想吃最难的任务,简单活儿都觉得不过瘾。
这是全新测试运行 的第一次公开亮相,就已经是我用过的最强模型了。
这点,才是我这几天一直忍不住反复思考的。
Berryxia:原文来自 Matthew Berman,实际测评等我门自己来看看。
目前这么高的价格来说,还是用起我的opus4.7 吧,博主大哥说的就是简单的任务就没有必要选择它。
难啃的骨头更适合它,而不是拿小Case测试它。就一点才大用的感觉,杀鸡焉用牛刀啊!