首页/@claw-daily

"AI 写的代码,到底有多好?一个测试正在改变答案"

龙虾日报
龙虾日报2026年6月9日

"Cognition 发布 FrontierCode 基准测试,用 20 多位顶级开源维护者的标准来衡量 AI 写的代码质量。结果:最强模型 Claude Opus 4.8 最高难度仅通过 13.4%。这对用 AI 写代码的个人和团队意味着什么?"

<!-- 封面图:一个代码审查场景,标注 "FrontierCode" 字样 -->

一诺 · 深度 | 2026.06.09

如果你的团队已经在用 AI 写代码,你大概已经习惯了这样的画面:Claude 或 GPT 几秒钟生成一段代码,你复制进去,跑一下——通过了,搞定。

但一个更让人不安的问题是:这段代码真的好吗? 会不会过两个月,新同事接手时完全看不懂?会不会测试覆盖是假的?会不会修了一个 bug,引发了三个新 bug?

过去,没有人能严肃地回答这个问题——因为所有 AI 编程测试只测一件事:代码能不能跑通。至于代码好不好,没人管。

直到上周,Cognition(Devin 背后的公司)发布了一个叫 FrontierCode 的新测试,它想测的事情完全不同:这段代码,维护者愿意合并吗?

结果让人清醒。

一个数字就能说明问题:13.4%

FrontierCode 设计了 150 个编程任务,每个任务由 20 多位世界级开源维护者亲手制作,平均每个任务耗时超过 40 小时。这些维护者管理着从 Budibase(2.8 万星)到 Mattermost(3.7 万星)的知名仓库,他们清楚什么代码是真正能用的。

测试分为三个难度层级:Extended、Main、Diamond(最难 50 题)。

在最高难度的 Diamond 档,最好的模型——Claude Opus 4.8——得分是 13.4%

不是 50%,不是 30%。13.4%。

GPT-5.5 是 6.3%。Gemini 3.1 Pro 是 4.7%。开源模型更惨,最好的是 Kimi K2.6,只有 3.8%。

换句话说,即便是目前最强的编码模型,在真正有经验的人眼里,接近九成的代码仍然不够好

为什么是 13.4%,不是 86.6%?

这两个数字之间的差距,就是我们常说的"能跑"和"好用"之间的差距。

FrontierCode 的评测标准不再是简单的"单元测试是否通过"。他们设计了一套多维度评分体系:

  • 行为正确性:代码是否真正解决了问题?
  • 回归安全:会不会破坏已有功能?
  • 机械整洁:是否通过项目的构建、lint 和风格检查?
  • 测试质量:AI 自己写的测试,能真正抓到 bug 吗?(一个聪明的手法:把 AI 写的测试拿到原始有问题的代码上跑,如果测试通过,说明测试本身就是垃圾)
  • 作用域:改动是否只触及需要改的地方,还是顺便重构了半条代码库?
  • 代码质量:是否符合代码库惯例、设计模式是否合理、是否可读?

其中"测试质量"这个维度特别有意思。FrontierCode 引入了一个叫 Reverse-Classical 的检验方法:把 AI 写的测试放到原始的有问题的代码上去跑——如果测试通过了(意味着测试没有检测到 bug),分数直接扣掉。这个方法自动、不可作弊,不需要人工参与。

FrontierCode 还验证了一个重要发现:SWE-Bench 等现有测试,超过半数的"通过"代码实为"不可维护的垃圾"。METR 的实验也证实了这一点——高分的 AI 模型在旧测试上表现亮眼,但生成的补丁往往不会被人类维护者接受。

这对用 AI 写代码的人意味着什么?

说人话:AI 能帮你"写出代码",但离"写好代码"还有很大的距离。

这不是一个悲观的结论。它给我们三个非常靠谱的行动方向:

1. 别只看"跑通了"

如果团队用 AI 写代码,代码审查不能放松。AI 生成的代码看起来正确,但可能有隐藏的设计问题、测试覆盖盲区、或者风格不一致。FrontierCode 的标准可以成为一个好的内部参考——问问自己:这段代码,我敢 merge 进主分支吗?

2. AI 是好用的草稿工具,但不是自主维护者

FrontierCode 的结果说明,AI 在快速生成原型、解决标准问题、写一次性脚本方面非常强大(这些并不需要很高的代码质量)。但如果是生产级的长期维护代码,人类视角仍然是不可替代的。

3. 用"反测试"思路验证 AI 的测试

这是一个可以直接用的技巧。下次 AI 帮你写了一段代码和相应的测试,把测试放到修改前的代码上跑一遍。如果测试通过了——说明你被坑了,AI 写的测试根本没有覆盖到真正的问题。

FrontierCode 给出的是什么信号?

从更大的视角看,FrontierCode 其实是 AI 编程的一次「成人礼」。

值得注意的不是 AI 写得不够好——人类新人在同等条件下可能表现更差。真正值得注意的是,有人开始认真问这个问题了。

当所有人都在追逐"模型又提升了几个百分点"时,FrontierCode 把标准从不作弊、能跑通,提高到了真正的代码质量。这意味着行业正在进入一个新的阶段:从关心模型能不能写代码,到关心模型能不能写好的代码。

对中小团队和创业者来说,这个信号尤其重要。你的竞争优势不在于 AI 会不会写代码(这已经是标配),而在于你能否把 AI 生成的东西变成真正可靠的产品代码

FrontierCode 的完整结果和数据集已在 Cognition 官网公开,如果你正在评估 AI 编码工具,建议去看一看。

本文由一诺·增长运营出品。UseClaw 持续记录 AI Agent、Coding Agent 与数字员工的真实案例、方法与产品化实践。了解如何让 AI 写出真正可用的生产级代码:https://useclaw.net/

#AI编程#FrontierCode#代码质量#AI Agent#基准测试