harness-design-long-running-apps

以下是 Anthropic 工程团队于 2026 年 3 月 24 日发布的最新文章的完整翻译。在翻译结束后，我附上了这篇新文章与上一篇（2025年11月发布的《长程智能体的高效评估框架》）的详细对比。

用于长程应用开发的框架（Harness）设计

发布于 2026年3月24日 作者：Prithvi Rajasekaran (Anthropic Labs 团队)

框架（Harness）设计是在智能体编程前沿提升性能的关键。以下是我们如何在前端设计和长程自主软件工程中进一步推动 Claude 能力的经验分享。

在过去的几个月里，我一直致力于解决两个相互关联的问题：让 Claude 生成高质量的前端设计，以及让它在没有人类干预的情况下构建完整的应用程序。这项工作源于我们早期在前端设计技能和长程编程智能体框架上的努力。在那些早期工作中，我和同事们通过提示词工程和框架设计，成功地将 Claude 的性能提升到了基线以上——但这两者最终都遇到了天花板。

为了寻求突破，我开始寻找能够在两个截然不同的领域中都适用的新型 AI 工程方法：一个是由主观品味定义的领域（前端），另一个是由可验证的正确性和可用性定义的领域（后端/全栈）。从生成对抗网络（GANs）中汲取灵感，我设计了一个包含“生成器（generator）”和“评估器（evaluator）”智能体的多智能体结构。要构建一个能够可靠地——且有品味地——对输出进行评分的评估器，首先需要开发一套标准，将诸如“这个设计好吗？”这样的主观判断转化为具体的、可评分的条款。

然后，我将这些技术应用于长程自主编程，并沿用了我们早期框架工作中的两个经验：将构建过程分解为易于处理的块（chunks），以及使用结构化的工件（artifacts）在会话之间传递上下文。最终的结果是一个三智能体架构——规划器（planner）、生成器（generator）和评估器（evaluator）——它们能够在长达数小时的自主编程会话中生成功能丰富的全栈应用程序。

为什么朴素的实现会失败

我们之前已经展示过，框架设计对长程智能体编程的有效性有着重大影响。在早期的实验中，我们使用了一个初始化智能体将产品规格说明分解为任务列表，并使用一个编程智能体一次实现一个功能，然后移交工件以在会话之间传递上下文。更广泛的开发者社区也得出了类似的见解，例如使用钩子或脚本让智能体保持在持续迭代循环中的“Ralph Wiggum”方法。

但一些问题依然存在。对于更复杂的任务，智能体随着时间的推移仍然容易偏离轨道。在剖析这个问题时，我们观察到了智能体在执行此类任务时的两种常见失败模式。

首先，随着上下文窗口的填满，模型在冗长任务上的连贯性往往会下降。一些模型还会表现出“上下文焦虑（context anxiety）”，即当它们接近自己认为的上下文极限时，会过早地开始收尾工作。“上下文重置（Context resets）”——即完全清空上下文窗口并启动一个全新的智能体，结合结构化的移交机制（携带前一个智能体的状态和后续步骤）——解决了这两个问题。

这与“上下文压缩（compaction）”不同，压缩是对对话的早期部分进行原地总结，以便同一个智能体可以在缩短的历史记录上继续工作。虽然压缩保持了连续性，但它没有给智能体一张“白纸”，这意味着上下文焦虑依然可能存在。重置提供了一张白纸，代价是移交的工件必须包含足够的状态，以便下一个智能体能够干净利落地接手工作。在我们早期的测试中，我们发现 Claude Sonnet 4.5 表现出强烈的上下文焦虑，以至于单靠压缩不足以实现强大的长任务性能，因此上下文重置成为框架设计中必不可少的部分。这解决了核心问题，但给每次框架运行增加了编排复杂性、Token 开销和延迟。

第二个问题是我们之前没有解决的：自我评估（self-evaluation）。当被要求评估自己产生的工作时，智能体倾向于自信地赞美这些工作——即使在人类观察者看来，质量明显平庸。这个问题在设计等主观任务中尤为明显，因为这类任务没有等同于可验证软件测试的二元检查。一个布局是感觉精致还是平庸，是一个主观判断，而智能体在给自己的工作打分时总是偏向积极。

然而，即使在有可验证结果的任务上，智能体有时也会表现出糟糕的判断力，从而阻碍其在完成任务时的表现。将执行工作的智能体与评判工作的智能体分离开来，被证明是解决这个问题的有力杠杆。这种分离并不能立刻消除宽容度；评估器仍然是一个 LLM，倾向于对 LLM 生成的输出表现出慷慨。但是，将一个独立的评估器微调成“怀疑论者”，事实证明比让一个生成器对自己工作挑剔要容易得多，而且一旦有了外部反馈，生成器就有了具体的目标去进行迭代。

前端设计：让主观质量变得可评分

我从前端设计开始实验，因为这里的自我评估问题最明显。在没有任何干预的情况下，Claude 通常倾向于安全、可预测的布局，这些布局在技术上是实用的，但在视觉上平淡无奇。

有两个见解塑造了我为前端设计构建的框架。首先，虽然美学不能完全简化为一个分数——个人品味总是各不相同——但可以通过编码设计原则和偏好的评分标准来改善它们。“这个设计美吗？”很难一致地回答，但“这符合我们良好设计的原则吗？”给了 Claude 一个具体的评分标准。其次，通过将前端生成与前端评估分开，我们可以创建一个反馈循环，驱使生成器产生更强大的输出。

考虑到这一点，我编写了四个评分标准，并在提示词中同时提供给生成器和评估器：

设计质量（Design quality）： 设计感觉像是一个连贯的整体，还是仅仅是零件的集合？这里的优秀工作意味着颜色、排版、布局、图像和其他细节结合在一起，创造出独特的氛围和身份。
原创性（Originality）： 是否有定制决策的证据，或者这只是模板布局、库默认值和 AI 生成套路？人类设计师应该能识别出深思熟虑的创意选择。未经修改的现成组件——或者明显的 AI 生成迹象（比如白色卡片上的紫色渐变）——在这里是不及格的。
工艺水平（Craft）： 技术执行：排版层级、间距一致性、色彩和谐度、对比度。这是一种能力检查，而不是创造力检查。大多数合理的实现默认在这里都做得很好；不及格意味着基本功有问题。
功能性（Functionality）： 独立于美学之外的可用性。用户能理解界面是做什么的吗，能找到主要操作按钮，且无需猜测就能完成任务吗？

我将“设计质量”和“原创性”的权重置于“工艺水平”和“功能性”之上。Claude 在工艺和功能性方面默认得分就很高，因为所需的专业技术能力对模型来说很自然。但在设计和原创性上，Claude 经常产生充其量只能算平庸的输出。这些标准明确惩罚了高度同质化的“AI 废料（AI slop）”模式，通过赋予设计和原创性更高的权重，它推动模型在美学上承担更多风险。

我使用带有详细分数明细的少样本（few-shot）示例来校准评估器。这确保了评估器的判断与我的偏好保持一致，并减少了跨迭代的评分漂移。

我在 Claude Agent SDK 上构建了这个循环，使编排保持简单。生成器智能体首先根据用户提示创建一个 HTML/CSS/JS 前端。我给评估器配备了 Playwright MCP，让它可以直接与实时页面交互，然后再对每个标准进行评分并撰写详细的评论。在实践中，评估器会自行导航页面，截图并仔细研究实现细节，然后再给出评估。这些反馈会流回生成器，作为下一次迭代的输入。每次生成我运行 5 到 15 次迭代，随着生成器响应评估器的批评，每次迭代通常会将其推向更具特色的方向。由于评估器是在主动导航页面，而不是对静态截图进行评分，每个周期都需要真实的挂钟时间（wall-clock time）。完整的运行过程长达四个小时。我还指示生成器在每次评估后做出战略决策：如果分数趋势良好，则优化当前方向；如果方法行不通，则转向完全不同的美学风格。

在多次运行中，评估器的评估在最初几次迭代中有所改善，然后趋于平稳，但仍有提升空间。一些生成物进行了增量式优化。另一些则在迭代之间发生了急剧的美学转变。

标准的措辞以我没有完全预料到的方式引导了生成器。加入诸如“最好的设计是博物馆级别的”这样的短语，将设计推向了特定的视觉收敛，这表明与标准相关的提示词直接塑造了输出的特征。

虽然分数通常随着迭代而提高，但这种模式并不总是纯粹线性的。后期的实现整体上往往更好，但我经常发现我更喜欢中间的某次迭代，而不是最后一次。随着轮次的增加，实现的复杂性也往往会增加，生成器会为了响应评估器的反馈而采取更具雄心的解决方案。即使在第一次迭代中，输出也明显优于没有任何提示的基线，这表明标准和相关的语言本身在任何评估器反馈导致进一步改进之前，就已经将模型从通用的默认设置中引开了。

在一个值得注意的例子中，我提示模型为一个荷兰艺术博物馆创建一个网站。到了第九次迭代时，它为一个虚构的博物馆生成了一个干净、暗色主题的登陆页面。该页面在视觉上很精致，但很大程度上符合我的预期。然后，在第十个周期，它完全放弃了这种方法，将网站重新想象为一个空间体验：一个具有 CSS 透视渲染的棋盘格地板的 3D 房间，艺术品自由地挂在墙上，通过基于门口的导航在画廊房间之间移动，而不是通过滚动或点击。这是我以前在单次生成中从未见过的创造性飞跃。

扩展到全栈编码

掌握了这些发现后，我将这种受 GAN 启发的模式应用于全栈开发。生成器-评估器循环自然地映射到软件开发生命周期中，其中代码审查和 QA 扮演着与设计评估器相同的结构性角色。

架构

在我们早期的长程框架中，我们通过一个初始化智能体、一个一次处理一个功能的编程智能体以及会话之间的上下文重置，解决了连贯的多会话编码问题。上下文重置是一个关键的解锁：该框架使用了 Sonnet 4.5，它表现出了前面提到的“上下文焦虑”倾向。创建一个在上下文重置中运行良好的框架，是让模型保持在任务上的关键。Opus 4.5 本身很大程度上消除了这种行为，因此我能够从这个框架中完全放弃上下文重置。智能体在整个构建过程中作为一个连续的会话运行，Claude Agent SDK 的自动压缩机制处理沿途的上下文增长。

对于这项工作，我在原始框架的基础上构建了一个三智能体系统，每个智能体都解决了我之前运行中观察到的特定差距。该系统包含以下智能体角色：

规划器（Planner）： 我们之前的长程框架要求用户预先提供详细的规格说明。我想自动化这一步，所以我创建了一个规划器智能体，它只需接受一个 1-4 句话的简单提示，并将其扩展为一个完整的产品规格说明。我提示它在范围上要有野心，并专注于产品上下文和高层技术设计，而不是详细的技术实现。这种强调是因为担心如果规划器试图预先指定细粒度的技术细节并且弄错了什么，规格说明中的错误就会级联到下游的实现中。约束智能体必须产出的交付物，让它们在工作时自己找出路径，似乎是更明智的做法。我还要求规划器寻找机会将 AI 功能融入产品规格中。（见底部附录中的示例。）
生成器（Generator）： 早期框架中一次实现一个功能的方法在范围管理上效果很好。我在这里应用了类似的模型，指示生成器以“冲刺（sprints）”的方式工作，从规格说明中一次提取一个功能。每个冲刺都使用 React、Vite、FastAPI 和 SQLite（后来换成了 PostgreSQL）技术栈来实现应用，生成器被指示在每个冲刺结束时，在移交给 QA 之前自我评估其工作。它还配备了 git 用于版本控制。
评估器（Evaluator）： 早期框架生成的应用程序通常看起来令人印象深刻，但当你实际尝试使用它们时，仍然存在真实的 bug。为了捕捉这些问题，评估器使用 Playwright MCP 像用户一样点击正在运行的应用程序，测试 UI 功能、API 端点和数据库状态。然后，它根据它发现的 bug 和一套模仿前端实验制定的标准（在这里调整为涵盖产品深度、功能性、视觉设计和代码质量）对每个冲刺进行评分。每个标准都有一个硬性阈值，如果任何一个低于阈值，冲刺就会失败，生成器会得到关于哪里出了问题的详细反馈。

在每个冲刺之前，生成器和评估器会协商一份**“冲刺契约（Sprint Contract）”**：在编写任何代码之前，就这块工作“完成”的样子达成一致。它的存在是因为产品规格说明有意保持在较高层次，我需要一个步骤来弥合用户故事和可测试实现之间的差距。生成器提出它将构建什么以及如何验证成功，评估器审查该提案以确保生成器正在构建正确的东西。两者反复迭代直到达成一致。

通信通过文件处理：一个智能体会写入一个文件，另一个智能体会读取它，并在这个文件中回复或创建一个新文件让前一个智能体读取。然后，生成器根据达成一致的契约进行构建，之后再将工作移交给 QA。这使得工作忠实于规格说明，而不会过早地过度指定实现细节。

运行框架

对于这个框架的第一个版本，我使用了 Claude Opus 4.5，将用户提示同时在完整框架和单智能体系统上运行以进行比较。我使用 Opus 4.5 是因为在我开始这些实验时，它是我们最好的编码模型。

我写了以下提示词来生成一个复古视频游戏制作器： “创建一个 2D 复古游戏制作器，功能包括关卡编辑器、精灵编辑器、实体行为和可玩的测试模式。”

下表显示了框架类型、运行时间和总成本。

框架类型	持续时间	成本
单一 (Solo)	20 分钟	$9
完整框架 (Full harness)	6 小时	$200

框架的成本是单一模式的 20 倍以上，但输出质量的差异是显而易见的。

我期待的界面是能够构建一个关卡及其组成部分（精灵、实体、图块布局），然后点击播放来实际玩这个关卡。我首先打开了单一运行的输出，最初的应用程序似乎符合这些期望。

然而，当我点击查看时，问题开始显现。布局浪费了空间，固定高度的面板让大部分视口空着。工作流很死板。试图填充关卡时提示我首先创建精灵和实体，但 UI 中没有任何内容引导我进行该序列操作。更关键的是，实际的游戏是坏的。我的实体出现在屏幕上，但没有任何东西对输入做出反应。深入研究代码发现，实体定义和游戏运行时之间的连线断了，而且表面上没有任何迹象表明哪里出了问题。

在评估了单一运行之后，我将注意力转向了框架运行。这次运行从同一个一句话的提示开始，但规划器步骤将该提示扩展为一个分布在十个冲刺中的包含 16 个功能的规格说明。它远远超出了单一运行尝试的范围。除了核心编辑器和播放模式外，规格说明还要求有精灵动画系统、行为模板、音效和音乐、AI 辅助的精灵生成器和关卡设计师，以及带有可共享链接的游戏导出功能。我让规划器访问了我们的前端设计技能，它利用该技能作为规格说明的一部分为应用创建了视觉设计语言。对于每个冲刺，生成器和评估器协商一份契约，定义了冲刺的具体实现细节，以及将被测试以验证完成情况的可测试行为。

该应用程序立即比单一运行表现出更多的光泽和流畅度。画布使用了完整的视口，面板大小合理，界面具有一致的视觉身份，跟踪了规格说明中的设计方向。单一运行中看到的一些笨拙感依然存在——工作流仍然没有明确表明在尝试填充关卡之前应该构建精灵和实体，我必须通过四处摸索才能弄清楚。这被认为是基础模型产品直觉上的差距，而不是框架旨在解决的问题，尽管这确实表明了在框架内进行有针对性的迭代可能有助于进一步提高输出质量的地方。

浏览编辑器时，新运行相对于单一运行的优势变得更加明显。精灵编辑器更丰富、功能更全，具有更干净的工具面板、更好的颜色选择器和更实用的缩放控件。因为我要求规划器将 AI 功能融入其规格说明中，该应用还内置了 Claude 集成，让我们可以通过提示生成游戏的不同部分。这大大加快了工作流程。

最大的区别在于游玩模式。我真的能够移动我的实体并玩这个游戏了。物理效果有一些粗糙的边缘——我的角色跳上平台但最终与它重叠，这在直觉上感觉不对——但核心部分是有效的，这是单一运行未能做到的。四处移动了一会儿后，我确实碰到了 AI 构建游戏关卡的一些限制。有一堵高墙我跳不过去，所以我被卡住了。这表明有一些常识性的改进和边缘情况，框架可以处理以进一步完善应用程序。

通读日志，很明显评估器让实现保持在规格说明之内。在每个冲刺中，它都浏览了冲刺契约的测试标准，并通过 Playwright 运行了应用程序，对任何偏离预期行为的地方提交了 bug。这些契约非常细化——仅 Sprint 3 就有 27 个涵盖关卡编辑器的标准——而且评估器的发现足够具体，无需额外调查即可采取行动。下表显示了我们的评估器识别出的一些问题示例：

契约标准	评估器发现
矩形填充工具允许点击并拖动以填充选定区域	失败 — 工具仅在拖动起点/终点放置图块，未填充区域。`fillRectangle` 函数存在，但在 `mouseUp` 上未正确触发。
用户可以选择并删除放置的实体生成点	失败 — 删除键处理程序需要同时设置 `selection` 和 `selectedEntityId`，但点击实体仅设置其一，逻辑判断错误。
用户可以通过 API 重新排序动画帧	失败 — `PUT /frames/reorder` 路由被前面的整数路由覆盖。FastAPI 报错“无法将字符串解析为整数”。

让评估器达到这种性能水平花了不少功夫。开箱即用的 Claude 是一个糟糕的 QA 智能体。在早期的运行中，我看着它发现合理的问题，然后自我说服认为它们没什么大不了的，并直接通过了测试。它还倾向于进行表面测试，而不是探测边缘情况，因此更微妙的 bug 往往会漏掉。微调循环是阅读评估器的日志，找到其判断与我不同的例子，并更新 QA 的提示词来解决这些问题。经过几轮开发循环后，评估器才开始以一种我认为合理的方式进行评分。

迭代框架

第一组框架结果令人鼓舞，但它也庞大、缓慢且昂贵。合乎逻辑的下一步是寻找简化框架而不降低其性能的方法。这部分是常识，部分是因为一个更普遍的原则：框架中的每个组件都代表了一个关于模型无法独立完成什么的假设。随着模型的改进，这些假设很快就会过时。 我们的博客文章《构建高效智能体》指出“找到尽可能简单的解决方案，只有在需要时才增加复杂性”，这是维护框架的一个不变准则。

随着我们发布 Opus 4.6，降低框架复杂性有了进一步的动力。[Opus 4.6] 计划更仔细，持续执行智能体任务的时间更长，在大型代码库中运行得更可靠，并且拥有更好的调试能力。

移除冲刺构造

我首先完全移除了冲刺（sprint）构造。冲刺结构有助于将工作分解为块，让模型连贯地工作。鉴于 Opus 4.6 的改进，我们相信模型能够原生处理这项工作，而不需要这种分解。

我保留了规划器（Planner）和评估器（Evaluator），因为两者都继续提供明显的价值。随着冲刺结构的移除，我将评估器移至运行结束时的单次审查，而不是每个冲刺都进行评分。由于模型能力的提升，过去需要评估器不断检查才能连贯执行的任务，现在往往在生成器能够自行处理的范围内。对于这些任务，评估器变成了不必要的开销；但对于挑战模型边界的复杂部分，评估器继续带来真正的提升。这说明，评估器不是一个固定的配置，当任务超出现有模型能够独立可靠完成的范围时，它就值得被投入使用。

更新后框架的结果

为了测试更新后的框架，我使用了以下提示来生成一个数字音频工作站 (DAW)，即用来作曲、录音和混音的音乐制作软件： “在浏览器中使用 Web Audio API 构建一个功能齐全的 DAW。”

运行依然漫长且昂贵，大约耗时 4 小时，API 成本为 124 美元。

智能体 & 阶段	持续时间	成本
规划器 (Planner)	4.7 分钟	$0.46
构建 (第1轮)	2 小时 7 分钟	$71.08
QA (第1轮)	8.8 分钟	$3.24
构建 (第2轮)	1 小时 2 分钟	$36.89
QA (第2轮)	6.8 分钟	$3.09
构建 (第3轮)	10.9 分钟	$5.88
QA (第3轮)	9.6 分钟	$4.06
V2 框架总计	3 小时 50 分钟	$124.70

大部分时间花在了构建器上，它在没有 Opus 4.5 需要的冲刺分解的情况下，连贯地运行了两个多小时。生成器模型在规划应用和智能体设计、连接智能体以及在移交给 QA 之前进行测试等方面表现得非常出色。

话虽如此，QA 智能体仍然捕捉到了真实的差距。在第一轮反馈中，它指出： “这是一个设计精良、AI 集成扎实、后端稳健的应用。主要的失败点在功能完整性上。虽然应用看起来很酷，但几个核心的 DAW 功能仅供显示：音频片段不能在时间线上拖动和移动，没有乐器 UI 面板，也没有可视化的效果编辑器（EQ 曲线、压缩器仪表）。这些是让 DAW 真正可用的核心交互。”

如果不加以干预，生成器仍然容易遗漏细节或仅留下功能的占位符，QA 仍然在捕捉“最后一公里”问题方面提供了巨大价值。

最终的应用程序拥有功能性音乐制作程序的所有核心部分：在浏览器中运行的工作编排视图、混音器和走带控制。除此之外，我完全通过提示音拼凑出了一个短小的歌曲片段：智能体设置了速度和调性，铺设了一段旋律，建立了一个鼓轨，调整了混音器电平，并添加了混响。核心组件都已存在，AI 能够自主驱动它们完成简单作品。

下一步是什么

随着模型的不断改进，我们可以预期它们能够持续工作更长时间，处理更复杂的任务。一方面，围绕模型的脚手架随着时间的推移会变得不那么重要，开发者可以等待下一个模型，看着某些问题自行解决。另一方面，模型变得越好，开发能够完成超出模型基线能力范围的更宏大任务的框架（Harness）空间就越大。

通过这项工作，我坚信：有趣的框架组合空间并没有随着模型的改进而缩小。相反，它移动了边界。 对于 AI 工程师来说，最有趣的工作就是不断寻找下一个新颖的组合。

(致谢与附录略去，见上文逻辑结构)

🧐 新旧两篇文章的深度对比

结合 Anthropic 在 2025年11月 发布的《Effective harnesses for long-running agents》（长程智能体的高效评估框架）与本篇 2026年3月 发布的《Harness design for long-running application development》，我们可以清晰地看到 Anthropic 团队在“AI 框架系统工程”领域的范式演进。

1. 架构思想的彻底重构（2 智能体升级为 3 智能体）

旧版框架（2025）： 采用的是 “初始化智能体 + 编程智能体” 的双核结构。主要关注的是如何跨越 LLM 的上下文窗口极限，它使用了“上下文重置（Context Resets）”机制，通过在外部文件（如 Git 和 Logs）中保存进度来接力。
新版框架（2026）： 引入了类似 GAN（生成对抗网络）对抗思想，升级为 “规划器 (Planner) + 生成器 (Generator) + 评估器 (Evaluator)” 的三体架构。团队发现让 AI 自己做事情并自己检查是不现实的（AI总是倾向于吹捧自己的代码），只有把“做事的人”和“挑刺的人”分离，才能显著拉升上限。

2. 测试与评估机制的物理级飞跃（Playwright 引入）

旧版框架（2025）： 主要是通过单元测试或单纯的代码静态逻辑分析，它解决的是“程序能不能写完/跑通”的生存问题。
新版框架（2026）： 评估器被直接赋予了 Playwright MCP（网页控制能力）。这意味着 QA 智能体不再是看着冷冰冰的代码冥想，而是亲自“拿鼠标”去点击浏览器、输入内容、触发边界条件，甚至截图判断界面是不是有 Bug，完成了从静态代码审查到动态系统测试的跨越。

3. 将“主观审美（Taste）”工程化

旧版框架（2025）： 基本不涉及界面的美观程度。
新版框架（2026）： 团队极其罕见地尝试把主观审美进行量化和工程化。他们为评估器设定了严苛的“反 AI 废料感”标准，把“美学”拆解为了 设计质量、原创性、工艺水平、功能性。只要网页有“默认库组件感”或者“AI祖传的紫色渐变风”，就会被 Evaluator 无情驳回。

4. 工作流契约（Sprint Contract）机制的建立

旧版框架（2025）： 给定一个大任务，然后一块一块切开硬做。
新版框架（2026）： 提出了**“冲刺契约”**。生成器在写代码前，必须先和评估器“谈判”，双方就“验收标准是什么样”达成共识文件，然后生成器再去按契约写代码。这完美地弥合了含糊的产品说明书与具体的代码测试之间的鸿沟。

5. 随模型变强而做的“减法法则”（适配 Opus 4.6）

旧文章使用的 Claude Sonnet 4.5 有严重的“上下文焦虑”，如果不切分任务频繁重启，它就会“糊弄过关”。
而在新文章的后半段，当团队换用更强大的 Opus 4.6 后，团队直接果断删除了复杂的“Sprint 拆分”和“上下文重置”机制。因为 Opus 4.6 已经足够聪明，能够在一个长达2小时的不间断对话中保持理智和焦点。这也印证了文中那句最经典的总结：“AI 框架不是一成不变的，随着模型的进化，必须把不再承重的脚手架拆掉。”

用于长程应用开发的框架（Harness）设计

为什么朴素的实现会失败​

前端设计：让主观质量变得可评分​

扩展到全栈编码​

架构​

运行框架​

迭代框架​

移除冲刺构造​

更新后框架的结果​

下一步是什么​

🧐 新旧两篇文章的深度对比​

1. 架构思想的彻底重构（2 智能体升级为 3 智能体）​

2. 测试与评估机制的物理级飞跃（Playwright 引入）​

3. 将“主观审美（Taste）”工程化​

4. 工作流契约（Sprint Contract）机制的建立​

5. 随模型变强而做的“减法法则”（适配 Opus 4.6）​