Claude 4.7 发布:完整官方数据对照表

guofeng
guofeng2026年4月16日

Claude Opus 4.7 完整数据对照,涵盖基准测试(SWE-bench/MMLU/GPQA等)、真实用户反馈、商业数据、Claude Code新功能、迁移注意事项

Anthropic 于 2026 年 4 月 16 日正式发布 Claude Opus 4.7。以下是来自官方公告及第三方评测的完整数据,方便直接对比。


定价(与 4.6 完全一致)

项目价格
每百万输入 Token$5
每百万输出 Token$25
模型标识claude-opus-4-7

基准测试对比

数据来源:Anthropic 官方博客、OfficeChai 整理

测试场景Opus 4.7Opus 4.6GPT-5.4Gemini 3.1 ProMythos Preview
SWE-bench Verified(编程)87.6%80.8%80.6%
SWE-bench Pro(编程)64.3%53.4%57.7%54.2%77.8%
GPQA Diamond(研究生级推理)94.2%94.4%94.3%
MCP-Atlas(工具调用)77.3%75.8%68.1%73.9%
MMLU(多语言问答)91.5%91.1%92.6%
BrowseComp(代理搜索)79.3%89.3%

注:与竞品对比采用 API 实际可调用版本,非官方公布最高分。


真实用户反馈数据

  • Rakuten:生产任务解决率提升 3 倍,代码质量提升"10 个数量级以上"
  • Notion:整体性能提升 14%,工具调用出错率下降约 1/3,首次通过隐性需求测试
  • Cursor:CursorBench 从 58% 升至 70%
  • CodeRabbit:最复杂 PR 召回率提升 10%+,精准度基本不变
  • Databricks:文档推理错误减少 21%
  • XBOW:视觉感知基准从 54.5% 跃升至 98.5%("彻底解决了主要痛点")

核心升级要点

自我验证输出:模型在汇报结果前主动检查,发现问题内部修正后再输出。Rakuten 反馈:多任务工作流中 Token 消耗也同步降低。

视觉能力:图片长边最高支持 2576 像素(约 375 万像素),是前代 Claude 模型的 3 倍以上,属模型层级的硬提升,非参数调节。

指令遵循:对复杂嵌套指令理解更精准,可能需要调整针对旧模型写的 Prompt。

跨会话记忆:更擅长用文件系统记事,减少每次会话的上下文输入量。


Claude Code 新功能

  • /ultrareview:深度代码审查命令,自动标记人工 Reviewer 会注意的问题
  • Auto Mode:向 Max 订阅用户全面开放,减少长任务中断
  • xhigh 推理档位:新增,位于 high 与 max 之间,默认 effort 级别也从 high 升至 xhigh
  • Task Budgets(Beta):允许开发者设置 Token 花费引导值,长任务中模型自主分配精力

迁移注意:成本可能微涨

  1. Tokenizer 更换:相同内容 Token 消耗变为原来的 1.0~1.35 倍,视内容类型而定
  2. 高推理档思考更深:尤其是 Agent 场景后几轮,输出 Token 增加

Anthropic 内部测试显示编程性价比仍优于 4.6,但建议用户用真实流量自行测试后再决定迁移。


商业数据

  • 融资:2026 年 2 月完成 $300 亿融资,估值 $3800 亿
  • 流量:过去一年增长约 5 倍
  • 企业客户:Fortune 10 中已有 8 家成为 Claude 客户
  • 版本节奏:Claude Opus 已稳定保持每 2 个月一次升级(4.5→4.6→4.7 均为 2 个月间隔)

安全定位

Opus 4.7 是 Mythos 级别模型的安全测试版(Mythos Preview 于 4 月 7 日发布,仅通过 Project Glasswing 限量提供给 40+ 合作方)。4.7 在训练中主动压低了网络安全能力,并配套自动拦截高风险网络安全请求的防护机制。安全研究人员可通过 Cyber Verification Program 合规使用。


适合谁升级

  • 复杂长链路编程任务 → 升(SWE-bench Verified 87.6%,领先幅度明显)
  • Agent 自动化工作流 → 升(工具调用、视觉感知大幅提升)
  • 金融/法律专业推理 → 升(GDPval-AA 第三方评测第一)
  • 简单问答场景 → 4.6 够用,可观望成本影响

官方公告:http://t.cn/axmei2zl

#AI#Anthropic#Claude#大模型#基准测试#数据