本文经原作者授权转载,版权归原作者所有。原作者:实践哥MinLi(@MinLiBuilds)。查看原文 →
作者:Ole Lehmann
原文链接:How to 10x your Claude Skills (using Karpathy's autoresearch method)
本文作者Ole Lehmann (@itsolelehmann)是一位在 AI 领域极具影响力的内容创作者和教育者,特别是在将 AI 应用于商业自动化和个人生产力方面。如果你对工作流自动化、AI Agent 的商业落地或者提升个人杠杆率感兴趣,他是目前 X 上最值得跟踪的头部博主之一。他的风格非常务实,很少谈论虚无缥缈的理论,更多是“手把手”教你如何配置一个能够帮你赚钱或省时间的 AI 工具。
这篇文章的价值在于:你能将任何skill,任何工作流,任何研究事项,只要他是可度量可量化的,都可以通过autoresearch的方法升级,持续优化,效果变成原来的十倍。原理非常简单,评估,优化,评估,优化.....无限执行。作者还提供了开源的链接,可以直接使用。你也可以用ai找Karpathy的autoresearch进行改造。
你的 Claude skill,有30%的时间都在悄悄骗人——你的客户可能比你先发现。
三个月前,我把自己搭的落地页文案 skill 交给一个客户用,拍着胸脯说"绝对靠谱"。他们要给新产品写上线文案,我说放心,这个 skill 我自己一直在用。
结果当天晚上,客户发来截图:CTA 是"了解更多",标题是"转变你的业务"。
我在手机上看了三秒,关掉,重新打开,还是那个截图。
那一刻我才意识到,我根本不知道这个 skill 什么时候好用、什么时候在糊弄人。
我搭了一套方法,能在 autopilot 模式下自动迭代任何 skill。这篇文章教你怎么自己跑起来。
你启动它,agent 就开始不停地测试、打磨这个 skill,不需要你做任何事。
我的落地页文案 skill,质量检查通过率从56%涨到了92%。全程零手动。
agent 自己在那反复测试、收紧 prompt。
下面是整套方法,以及我搭好的具体 skill,你可以直接拿来用:
P.S. 每周想收到更多这类 AI workflow?关注我。
这个方法从哪里来
Andrej Karpathy(OpenAI 联合创始人、特斯拉前 AI 负责人、"vibe coding"这个词的发明者)发布了一套叫 autoresearch 的方法。

核心思路很简单:不让你手动改进,而是让 AI agent 在循环里替你干。
它试一个小改动。看结果变好了没有。变好就留下,没变好就扔掉。
然后再来一次。再来一次。
他最初是用在机器学习代码上的。但这套方法适用于任何能衡量、能改进的东西。
这让我想到一个让人有点不舒服的事实:
你每天用的那些 AI workflow,你真的知道它们"表现好"还是"只是在输出文字"吗?
大多数人分不清。因为没人教你怎么分。
你上了多少 AI 课、学了多少 prompt 技巧——但有人告诉过你,怎么验证你搭好的东西真的在工作吗?
没有。大家都在教你怎么搭,没人教你怎么测。
我也曾经分不清。
我后来想了很久,这种失效到底是怎么发生的。
最让我难受的不是那次客户截图。是在那之后——我开始数,到底有多少次我以为"还行",但其实已经在悄悄跑偏了。
有一种失效,你完全感知不到。prompt 没明确禁止的东西,模型会慢慢漂向"安全感"——输出越来越模糊,越来越像模板,每次都过得去,但每次都差一点。等你发现,根本不知道是从第几轮开始出问题的。
还有一种,更难受:你只看得到那些"还不错"的输出——打开、用掉、关掉。那些悄悄失效的,格式跑了、关键要素漏了,你永远不知道它们有多频繁。因为你根本不会去翻。
第三种是自欺欺人。偶尔发现问题,手动改一改那次输出,告诉自己"修了"。但你改的是那一次,不是 skill 本身。下次还是会在同一个地方出错。
我以前三种都干过。
包括你在 Claude 里搭的 skill。
我把他的方法做成了一个可以在 Claude Code 和 Cowork 里跑的 skill。想用的时候,直接在其他 skill 上运行它就行。
说一句"对我的落地页 skill 跑 autoresearch",剩下的它全搞定。
一次循环怎么自动提升你的 skill
这么想象。
你有一个菜谱,十次里有七次做得不错。另外三次,总有些地方不对劲。也许是酱汁淡了,也许是调味出了问题。
你不是从头重写整个菜谱,而是换一种配料。用这个改动做十次。
变好了?留下这个改动。
变差了?换回原来的。
然后改下一个。再做十次。变好还是变差?留下还是撤销。
经过50轮这样的过程,你的菜谱十次里有9.5次都能成功。
这正是 autoresearch 对你 skill 做的事。
"菜谱"是你的 skill prompt。 "做菜"是跑这个 skill。 "试味"是给输出结果打分。
你唯一要做的,是给出评分标准
告诉 agent"什么叫好"的 checklist,这是你在整个过程里唯一要干的事。
用一个简单的是/否问题 checklist 来定义它。
每个问题检查输出的一个具体方面。通过或失败,就这么简单。
agent 用这个 checklist 给每次输出打分,分数告诉它:这次改动是在帮忙还是在帮倒忙。
想象老师用 checklist 批卷子。
不是"给写作质量打个1-10分"(模糊,每次结果都不一样),而是每一项都清清楚楚是或否:
- 学生有没有写论点?是或否。
- 每处引用都注明出处了吗?是或否。
- 篇幅在5页以内吗?是或否。
用这份 checklist 批100份卷子,每次结果都一致。
落地页文案 skill 的 checklist 可能长这样:
- "标题有没有包含具体数字或可量化结果?"(不是"更好的文案",而是"3天回收广告费")
- "开头第一句有没有点出一个具体的、有名字的痛苦场景?"(不是"很多人都有这个问题",而是"你发了邮件但对方根本没回")
- "CTA 是否清楚告诉用户做完这一步之后会发生什么?"(不是"立即注册",而是"注册后3分钟内收到你的分析报告")
- "全文有没有出现'颠覆性''行业领先''最优解'这类零信息量词汇?"
- "第一段内,有没有提到用户拿到结果之后的具体生活变化?"
这些不需要你自己想。启动 autoresearch 时,agent 会全程引导你。
它会问你什么叫好,帮你把模糊的感觉变成能打勾的问题。你有风格指南的话,直接丢给它。
3-6个问题是最佳数量。千万别贪多。我试过加到10个,skill 开始专门应付 checklist,输出反而更烂——就像学生背答案、根本没理解题目。
我现在有个自己的规则:任何 skill,没跑过 autoresearch 的,我不拿出去用。不是完美主义,是因为我踩过那个坑。我知道那种自信其实只是无知。
怎么跑起来
第一步:下载 skill。 从这里获取,放进你在 Claude Code 或 Cowork 里的 skills 文件夹。
第二步:选一个要改进的 skill。 说"对我的[skill 名称] skill 跑 autoresearch"。选最让你头疼的那个——时好时坏、输出不稳定的那个。
第三步:agent 问你3件事。 要优化哪个 skill、用什么测试输入(比如"为一款 AI 生产力工具写落地页文案"),以及你的 checklist 问题是什么。
第四步:它跑一遍你的 skill,给出起始分数。
这是基准线。我的落地页 skill 起步56%——标题模糊、流行词泛滥、CTA 软弱。超过一半的检查项都没过。
第五步:浏览器弹出实时 dashboard。
分数曲线、每项 checklist 的通过/失败、每次改动日志。每10秒刷新一次。
第六步:走开。
agent 开始循环。找最薄弱的地方,改一点,测试,分数升就留,分数降就撤。
然后再来一次。再来一次。
一直跑,直到你叫停,或者连续三次超过95%。
你可以盯着看,也可以去喝杯咖啡。它不需要你。
我的落地页 skill 发生了什么
我在自己的落地页文案 skill 上跑了一遍。结果:
56% → 92%。4轮改动,3个留下,1个撤销。
agent 实际对我的 skill prompt 做了这些改动:
- 针对最高频失败项,加了一条明确规则:"标题必须包含具体数字或结果。禁止使用'转变你的业务'这类模糊承诺。"
- 加了禁用流行词列表:"绝不使用:revolutionary、cutting-edge、synergy、next-level、game-changing、leverage、unlock、transform。"
- 加了一段高质量落地页的实际示例,并标出了痛点开场白和 CTA 所在位置,让 skill 能直接看到好的样子,而不是靠猜。
- 尝试了更严格的字数限制,然后撤销了,因为文案变得太单薄,CTA 也跟着变差。(系统能识别出那些单独看像改进、但实际损害整体输出的改动。)
最终我拿到了:
- 改进后的 skill,单独保存(原版完好,随时可以恢复)
- 每一轮分数的结果日志
- 完整的 changelog:每次改动是什么、agent 为什么这么改、结果如何
- 原始 skill 的备份
那个 changelog 可能是最值钱的东西。它是这个 skill 完整的"经验总结"——什么有用,什么没用,一清二楚。
等更强的模型出来,把这份 changelog 交给它,它就能从上一个 agent 停下的地方接着干。
说实话,跑完那次 autoresearch,改变最大的不是分数。是感觉。
以前每次交付 skill,心里多少有点虚:希望这次没问题。现在不一样了——我知道它在什么情况下能工作,在什么情况下会出错,出错了怎么找到问题。
从靠运气,变成靠系统。这才是最值钱的东西。
这套方法能用的地方远不止 skill
任何能打分的东西,都能用这套方法。
网站速度: 有人用它优化页面加载时间。改一处,测量速度,留下或撤销。67轮之后,从1100ms降到了67ms。
陌生客户开发邮件: 定义你的 checklist:"有没有提到对方的公司?是否在75字以内?是否以具体问题收尾?"让 agent 跑50个变体。
Newsletter 开篇: "开场白有没有个人细节?""有没有陈词滥调?"让 agent 在 autopilot 上帮你打磨文字。
任何你反复使用的 prompt。
能打分,就能 autoresearch。
去跑一遍吧
挑你表现最差的 skill,启动 autoresearch,回来就是一个真正稳定好用的东西。
在这里下载 skill(上传到 Dropbox)
或者去我的 GitHub 看看
你有没有遇到过:满心以为 skill 在好好工作,结果被客户或者同事抓到一个你完全没注意到的问题?
评论里说说你的故事——哪个环节出了问题?我看每一条。