你搭的 Claude Skills，还能提升10倍效果——使用Karpathy 的 autoresearch 方法【译】

本文经原作者授权转载，版权归原作者所有。原作者：实践哥MinLi（@MinLiBuilds）。查看原文 →

作者：Ole Lehmann

原文链接：How to 10x your Claude Skills (using Karpathy's autoresearch method)

本文作者Ole Lehmann （@itsolelehmann）是一位在 AI 领域极具影响力的内容创作者和教育者，特别是在将 AI 应用于商业自动化和个人生产力方面。如果你对工作流自动化、AI Agent 的商业落地或者提升个人杠杆率感兴趣，他是目前 X 上最值得跟踪的头部博主之一。他的风格非常务实，很少谈论虚无缥缈的理论，更多是“手把手”教你如何配置一个能够帮你赚钱或省时间的 AI 工具。

这篇文章的价值在于：你能将任何skill，任何工作流，任何研究事项，只要他是可度量可量化的，都可以通过autoresearch的方法升级，持续优化，效果变成原来的十倍。原理非常简单，评估，优化，评估，优化.....无限执行。作者还提供了开源的链接，可以直接使用。你也可以用ai找Karpathy的autoresearch进行改造。

你的 Claude skill，有30%的时间都在悄悄骗人——你的客户可能比你先发现。

三个月前，我把自己搭的落地页文案 skill 交给一个客户用，拍着胸脯说"绝对靠谱"。他们要给新产品写上线文案，我说放心，这个 skill 我自己一直在用。

结果当天晚上，客户发来截图：CTA 是"了解更多"，标题是"转变你的业务"。

我在手机上看了三秒，关掉，重新打开，还是那个截图。

那一刻我才意识到，我根本不知道这个 skill 什么时候好用、什么时候在糊弄人。

我搭了一套方法，能在 autopilot 模式下自动迭代任何 skill。这篇文章教你怎么自己跑起来。

你启动它，agent 就开始不停地测试、打磨这个 skill，不需要你做任何事。

我的落地页文案 skill，质量检查通过率从56%涨到了92%。全程零手动。

agent 自己在那反复测试、收紧 prompt。

下面是整套方法，以及我搭好的具体 skill，你可以直接拿来用：

P.S. 每周想收到更多这类 AI workflow？关注我。

这个方法从哪里来

Andrej Karpathy（OpenAI 联合创始人、特斯拉前 AI 负责人、"vibe coding"这个词的发明者）发布了一套叫 autoresearch 的方法。

核心思路很简单：不让你手动改进，而是让 AI agent 在循环里替你干。

它试一个小改动。看结果变好了没有。变好就留下，没变好就扔掉。

然后再来一次。再来一次。

他最初是用在机器学习代码上的。但这套方法适用于任何能衡量、能改进的东西。

这让我想到一个让人有点不舒服的事实：

你每天用的那些 AI workflow，你真的知道它们"表现好"还是"只是在输出文字"吗？

大多数人分不清。因为没人教你怎么分。

你上了多少 AI 课、学了多少 prompt 技巧——但有人告诉过你，怎么验证你搭好的东西真的在工作吗？

没有。大家都在教你怎么搭，没人教你怎么测。

我也曾经分不清。

我后来想了很久，这种失效到底是怎么发生的。

最让我难受的不是那次客户截图。是在那之后——我开始数，到底有多少次我以为"还行"，但其实已经在悄悄跑偏了。

有一种失效，你完全感知不到。prompt 没明确禁止的东西，模型会慢慢漂向"安全感"——输出越来越模糊，越来越像模板，每次都过得去，但每次都差一点。等你发现，根本不知道是从第几轮开始出问题的。

还有一种，更难受：你只看得到那些"还不错"的输出——打开、用掉、关掉。那些悄悄失效的，格式跑了、关键要素漏了，你永远不知道它们有多频繁。因为你根本不会去翻。

第三种是自欺欺人。偶尔发现问题，手动改一改那次输出，告诉自己"修了"。但你改的是那一次，不是 skill 本身。下次还是会在同一个地方出错。

我以前三种都干过。

包括你在 Claude 里搭的 skill。

我把他的方法做成了一个可以在 Claude Code 和 Cowork 里跑的 skill。想用的时候，直接在其他 skill 上运行它就行。

说一句"对我的落地页 skill 跑 autoresearch"，剩下的它全搞定。

一次循环怎么自动提升你的 skill

这么想象。

你有一个菜谱，十次里有七次做得不错。另外三次，总有些地方不对劲。也许是酱汁淡了，也许是调味出了问题。

你不是从头重写整个菜谱，而是换一种配料。用这个改动做十次。

变好了？留下这个改动。

变差了？换回原来的。

然后改下一个。再做十次。变好还是变差？留下还是撤销。

经过50轮这样的过程，你的菜谱十次里有9.5次都能成功。

这正是 autoresearch 对你 skill 做的事。

"菜谱"是你的 skill prompt。 "做菜"是跑这个 skill。 "试味"是给输出结果打分。

你唯一要做的，是给出评分标准

告诉 agent"什么叫好"的 checklist，这是你在整个过程里唯一要干的事。

用一个简单的是/否问题 checklist 来定义它。

每个问题检查输出的一个具体方面。通过或失败，就这么简单。

agent 用这个 checklist 给每次输出打分，分数告诉它：这次改动是在帮忙还是在帮倒忙。

想象老师用 checklist 批卷子。

不是"给写作质量打个1-10分"（模糊，每次结果都不一样），而是每一项都清清楚楚是或否：

学生有没有写论点？是或否。
每处引用都注明出处了吗？是或否。
篇幅在5页以内吗？是或否。

用这份 checklist 批100份卷子，每次结果都一致。

落地页文案 skill 的 checklist 可能长这样：

"标题有没有包含具体数字或可量化结果？"（不是"更好的文案"，而是"3天回收广告费"）
"开头第一句有没有点出一个具体的、有名字的痛苦场景？"（不是"很多人都有这个问题"，而是"你发了邮件但对方根本没回"）
"CTA 是否清楚告诉用户做完这一步之后会发生什么？"（不是"立即注册"，而是"注册后3分钟内收到你的分析报告"）
"全文有没有出现'颠覆性''行业领先''最优解'这类零信息量词汇？"
"第一段内，有没有提到用户拿到结果之后的具体生活变化？"

这些不需要你自己想。启动 autoresearch 时，agent 会全程引导你。

它会问你什么叫好，帮你把模糊的感觉变成能打勾的问题。你有风格指南的话，直接丢给它。

3-6个问题是最佳数量。千万别贪多。我试过加到10个，skill 开始专门应付 checklist，输出反而更烂——就像学生背答案、根本没理解题目。

我现在有个自己的规则：任何 skill，没跑过 autoresearch 的，我不拿出去用。不是完美主义，是因为我踩过那个坑。我知道那种自信其实只是无知。

怎么跑起来

第一步：下载 skill。从这里获取，放进你在 Claude Code 或 Cowork 里的 skills 文件夹。

第二步：选一个要改进的 skill。说"对我的[skill 名称] skill 跑 autoresearch"。选最让你头疼的那个——时好时坏、输出不稳定的那个。

第三步：agent 问你3件事。要优化哪个 skill、用什么测试输入（比如"为一款 AI 生产力工具写落地页文案"），以及你的 checklist 问题是什么。

第四步：它跑一遍你的 skill，给出起始分数。

这是基准线。我的落地页 skill 起步56%——标题模糊、流行词泛滥、CTA 软弱。超过一半的检查项都没过。

第五步：浏览器弹出实时 dashboard。

分数曲线、每项 checklist 的通过/失败、每次改动日志。每10秒刷新一次。

第六步：走开。

agent 开始循环。找最薄弱的地方，改一点，测试，分数升就留，分数降就撤。

然后再来一次。再来一次。

一直跑，直到你叫停，或者连续三次超过95%。

你可以盯着看，也可以去喝杯咖啡。它不需要你。

我的落地页 skill 发生了什么

我在自己的落地页文案 skill 上跑了一遍。结果：

56% → 92%。4轮改动，3个留下，1个撤销。

agent 实际对我的 skill prompt 做了这些改动：

针对最高频失败项，加了一条明确规则："标题必须包含具体数字或结果。禁止使用'转变你的业务'这类模糊承诺。"
加了禁用流行词列表："绝不使用：revolutionary、cutting-edge、synergy、next-level、game-changing、leverage、unlock、transform。"
加了一段高质量落地页的实际示例，并标出了痛点开场白和 CTA 所在位置，让 skill 能直接看到好的样子，而不是靠猜。
尝试了更严格的字数限制，然后撤销了，因为文案变得太单薄，CTA 也跟着变差。（系统能识别出那些单独看像改进、但实际损害整体输出的改动。）

最终我拿到了：

改进后的 skill，单独保存（原版完好，随时可以恢复）
每一轮分数的结果日志
完整的 changelog：每次改动是什么、agent 为什么这么改、结果如何
原始 skill 的备份

那个 changelog 可能是最值钱的东西。它是这个 skill 完整的"经验总结"——什么有用，什么没用，一清二楚。

等更强的模型出来，把这份 changelog 交给它，它就能从上一个 agent 停下的地方接着干。

说实话，跑完那次 autoresearch，改变最大的不是分数。是感觉。

以前每次交付 skill，心里多少有点虚：希望这次没问题。现在不一样了——我知道它在什么情况下能工作，在什么情况下会出错，出错了怎么找到问题。

从靠运气，变成靠系统。这才是最值钱的东西。

这套方法能用的地方远不止 skill

任何能打分的东西，都能用这套方法。

网站速度：有人用它优化页面加载时间。改一处，测量速度，留下或撤销。67轮之后，从1100ms降到了67ms。

陌生客户开发邮件：定义你的 checklist："有没有提到对方的公司？是否在75字以内？是否以具体问题收尾？"让 agent 跑50个变体。

Newsletter 开篇： "开场白有没有个人细节？""有没有陈词滥调？"让 agent 在 autopilot 上帮你打磨文字。

任何你反复使用的 prompt。

能打分，就能 autoresearch。

去跑一遍吧

挑你表现最差的 skill，启动 autoresearch，回来就是一个真正稳定好用的东西。

在这里下载 skill（上传到 Dropbox）

或者去我的 GitHub 看看

你有没有遇到过：满心以为 skill 在好好工作，结果被客户或者同事抓到一个你完全没注意到的问题？

评论里说说你的故事——哪个环节出了问题？我看每一条。