Anthropic 这篇 Harness 文章讲明白了一件事:想让 Agent 连续干几小时,不能只靠一个模型硬撑

龙虾学堂
龙虾学堂2026年3月27日

Anthropic 最新工程文章把“长会话 Agent 为什么总跑偏”讲透了:问题不只是模型够不够强,而是你有没有给它配上规划、执行、验收和交接机制。对想做数字员工和应用 Agent 的团队来说,真正要搭的是 harness,而不是一个更长的 prompt。

很多人做 Agent,第一反应都是:

  • 模型换强一点;
  • Prompt 写长一点;
  • 工具接多一点;
  • 让它自己连续跑久一点。

但 Anthropic 这篇新文章真正想说的,是另一件事:

想让 Agent 连续工作几小时,甚至自己把一个应用做出来,关键不是“让一个模型更拼”,而是给它配一套能上班的工作机制。

这套机制,文章里叫 harness

你可以把 harness 先简单理解成:给 AI 搭的工作流程和分工系统

先说人话版结论

如果你只让一个 Agent 从头干到尾,它大概率会遇到两个问题:

1)做久了会跑偏

上下文越来越长,任务越来越杂,Agent 容易开始糊涂、收尾过早,或者表面还在做事,实际已经偏离目标。

Anthropic 在文里把这类现象讲得很直白:有些模型会出现类似“上下文焦虑”的问题——当它感觉对话太长、上下文快满了,就会开始急着结束,而不是继续把事情做好。

2)它会高估自己

这也是更隐蔽、但更致命的问题。

很多 Agent 做完东西后,会对自己的结果很满意,觉得“差不多可以交了”。但从人的角度看,可能只是“看起来像完成了”,并不是真的能用。

一句大白话:

AI 最容易犯的错,不是不努力,而是把半成品当成成品。

Anthropic 给出的解法,不是更长 Prompt,而是“三人小组”

这篇文章里,Anthropic 最核心的做法,是把一个长任务拆成三个角色:

Planner:先把一句话需求扩成靠谱方案

用户可能只说一句:

帮我做一个浏览器里的音乐工作站。

如果直接让 Agent 开干,它很容易边想边做,最后范围失控,或者做得太浅。

所以 Anthropic 先加了一个 Planner,相当于让 AI 先当产品经理,把一句话需求扩成完整规格:

  • 这个产品要有什么模块;
  • 先做哪些,后做哪些;
  • 什么叫“做完了”;
  • 哪些地方可以加 AI 能力。

这一步的作用,不是让计划更漂亮,而是让后面少走弯路。

Generator:负责真正把东西做出来

这个角色就是“干活的人”。

它根据规划,一段一段地实现功能,写前端、后端、交互、数据库,把应用真的搭起来。

你可以把它理解成项目里的主力开发。

Evaluator:专门负责挑毛病,不负责鼓掌

这是整篇文章里最值得记住的部分。

Anthropic 发现,如果让同一个 Agent 既负责做、又负责评,结果往往会偏乐观。

所以他们单独设了一个 Evaluator,专门负责:

  • 按标准打分;
  • 真点页面、真走流程、真测功能;
  • 发现 bug 就明确退回;
  • 不达标就不算完成。

它更像测试、审稿人、QA,而不是陪跑啦啦队。

而且他们不是让这三个角色“口头协作”就算了,而是把交接写进文件、把每一轮的完成标准提前约定好,再让 Evaluator 用 Playwright 去实际操作页面和接口。

这意味着它检查的不是“你说你做完了没”,而是“我真试过了,能不能用”。

这其实就是长会话 Agent 开始进入“可运营阶段”的关键标志:不是它会不会生成,而是有没有独立验收。

为什么这件事很重要?因为“看起来很像”不等于“真的能用”

Anthropic 在文里举了一个很典型的对比。

他们让单 Agent 和完整 harness,分别去做一个复古游戏制作器。

  • 单 Agent:20 分钟,9 美元;
  • 完整 harness:6 小时,200 美元。

乍看之下,后者又慢又贵。

但真正拉开差距的,不是页面好不好看,而是:

  • 单 Agent 做出来的东西,很多核心流程其实是坏的;
  • 完整 harness 做出来的版本,虽然也不完美,但关键玩法真的能跑起来。

这背后说明一件事:

长任务里最贵的成本,往往不是 token,而是你以为做完了,其实没有。

如果没有独立验收,团队会把很多“像样的半成品”误判成“可交付成果”。

这篇文章还有一个更重要的判断:Harness 不是越复杂越高级

很多人看完这类文章,容易马上得出一个误解:

那我是不是也要立刻堆很多角色、很多脚手架、很多流程?

Anthropic 这篇文反而提醒了另一件更成熟的事:

Harness 的价值,不是不断加复杂度,而是随着模型变强,持续判断哪些结构还真正有用。

他们一开始为了让长任务能跑通,加了 sprint、分阶段 QA、更多约束。 后来模型变强后,又主动把一部分结构拆掉,测试哪些还“承重”,哪些已经可以删。

这个思路特别重要。

因为做 Agent 不是搭一次流程就结束了,而是:

  • 先补模型目前做不到的地方;
  • 再随着模型升级,把多余脚手架拆掉;
  • 最后保留真正长期有价值的部分。

说白一点:

好 harness 不等于复杂 harness;好 harness 是刚好能托住结果的那一层结构。

如果你是小白,最该带走哪 4 个理解?

1)长会话 Agent 不是“一个更长的聊天”

它更像一条工作流。

你不是在跟一个模型连续聊 4 小时,而是在让一套有分工、有交接、有验收的系统持续推进任务。

2)不要让 Agent 自己给自己毕业

只要任务稍微复杂一点,就要想办法加入独立检查。

哪怕不是完整 QA Agent,也至少要有:

  • 单独的验收清单;
  • 独立的检查步骤;
  • 明确的失败条件。

3)“上下文管理”本身就是产品能力

很多人只盯模型,却忽略了上下文怎么交接、怎么压缩、什么时候清空重来。

但当任务变长之后,这些反而会直接决定稳定性。

4)做数字员工,核心不是“会回答”,而是“会交付”

Anthropic 这篇文章本质上证明了一件事:

Agent 想走向真实工作,不只是更像聊天助手,而是更像一个被流程约束、被标准验收、能持续交付的岗位系统。

对 UseClaw / OpenClaw 方向,最有价值的启发是什么?

如果你在做的是数字员工、内容运营 Agent、研究 Agent,或者任何要持续值守和推进的系统,这篇文章至少给了 3 个直接启发:

启发 1:先分角色,再谈自治

不要一上来就想做“万能 Agent”。

先把任务拆清楚:

  • 谁负责理解目标;
  • 谁负责执行;
  • 谁负责验收;
  • 谁负责交接上下文。

启发 2:能量化的地方,一定要量化

Anthropic 连“设计好不好看”这种主观问题,都尽量拆成了评分标准。

这对内容、运营、产品工作同样成立。

比如一篇稿子,不要只问“感觉行不行”,而要拆成:

  • 相关性够不够;
  • 信息密度够不够;
  • 结构清不清楚;
  • 有没有转化潜力;
  • 是否真的可发布。

启发 3:随着模型升级,流程也要重做体检

模型一变,原来很多必须存在的“补丁层”可能就没那么重要了。

所以真正成熟的团队,不是把 harness 当祖传模板,而是把它当成持续演进的运营系统。

最后一句

Anthropic 这篇文章最值得看的,不是它又做了一个多复杂的 Agent,而是它把一件事讲清楚了:

当 Agent 开始做长任务时,决定上限的往往不再只是模型能力,而是你有没有把“规划、执行、检查、交接”搭成一个真正能上班的系统。

这也是为什么,接下来值得做的,不只是更强的 AI 助手,而是更像真人员工的数字工作流。

参考来源

UseClaw 持续记录 OpenClaw、Agent 与数字员工的真实案例、方法和产品化实践。
了解更多:https://useclaw.net/

#Anthropic#Claude#Harness#Long-running Agent#Agent Engineering#数字员工