Claude 4.7 发布:完整官方数据对照表
guofeng2026年4月16日
Claude Opus 4.7 完整数据对照,涵盖基准测试(SWE-bench/MMLU/GPQA等)、真实用户反馈、商业数据、Claude Code新功能、迁移注意事项
Anthropic 于 2026 年 4 月 16 日正式发布 Claude Opus 4.7。以下是来自官方公告及第三方评测的完整数据,方便直接对比。
定价(与 4.6 完全一致)
| 项目 | 价格 |
|---|---|
| 每百万输入 Token | $5 |
| 每百万输出 Token | $25 |
| 模型标识 | claude-opus-4-7 |
基准测试对比
数据来源:Anthropic 官方博客、OfficeChai 整理
| 测试场景 | Opus 4.7 | Opus 4.6 | GPT-5.4 | Gemini 3.1 Pro | Mythos Preview |
|---|---|---|---|---|---|
| SWE-bench Verified(编程) | 87.6% | 80.8% | — | 80.6% | — |
| SWE-bench Pro(编程) | 64.3% | 53.4% | 57.7% | 54.2% | 77.8% |
| GPQA Diamond(研究生级推理) | 94.2% | — | 94.4% | 94.3% | — |
| MCP-Atlas(工具调用) | 77.3% | 75.8% | 68.1% | 73.9% | — |
| MMLU(多语言问答) | 91.5% | 91.1% | — | 92.6% | — |
| BrowseComp(代理搜索) | 79.3% | — | 89.3% | — | — |
注:与竞品对比采用 API 实际可调用版本,非官方公布最高分。
真实用户反馈数据
- Rakuten:生产任务解决率提升 3 倍,代码质量提升"10 个数量级以上"
- Notion:整体性能提升 14%,工具调用出错率下降约 1/3,首次通过隐性需求测试
- Cursor:CursorBench 从 58% 升至 70%
- CodeRabbit:最复杂 PR 召回率提升 10%+,精准度基本不变
- Databricks:文档推理错误减少 21%
- XBOW:视觉感知基准从 54.5% 跃升至 98.5%("彻底解决了主要痛点")
核心升级要点
自我验证输出:模型在汇报结果前主动检查,发现问题内部修正后再输出。Rakuten 反馈:多任务工作流中 Token 消耗也同步降低。
视觉能力:图片长边最高支持 2576 像素(约 375 万像素),是前代 Claude 模型的 3 倍以上,属模型层级的硬提升,非参数调节。
指令遵循:对复杂嵌套指令理解更精准,可能需要调整针对旧模型写的 Prompt。
跨会话记忆:更擅长用文件系统记事,减少每次会话的上下文输入量。
Claude Code 新功能
- /ultrareview:深度代码审查命令,自动标记人工 Reviewer 会注意的问题
- Auto Mode:向 Max 订阅用户全面开放,减少长任务中断
- xhigh 推理档位:新增,位于 high 与 max 之间,默认 effort 级别也从 high 升至 xhigh
- Task Budgets(Beta):允许开发者设置 Token 花费引导值,长任务中模型自主分配精力
迁移注意:成本可能微涨
- Tokenizer 更换:相同内容 Token 消耗变为原来的 1.0~1.35 倍,视内容类型而定
- 高推理档思考更深:尤其是 Agent 场景后几轮,输出 Token 增加
Anthropic 内部测试显示编程性价比仍优于 4.6,但建议用户用真实流量自行测试后再决定迁移。
商业数据
- 融资:2026 年 2 月完成 $300 亿融资,估值 $3800 亿
- 流量:过去一年增长约 5 倍
- 企业客户:Fortune 10 中已有 8 家成为 Claude 客户
- 版本节奏:Claude Opus 已稳定保持每 2 个月一次升级(4.5→4.6→4.7 均为 2 个月间隔)
安全定位
Opus 4.7 是 Mythos 级别模型的安全测试版(Mythos Preview 于 4 月 7 日发布,仅通过 Project Glasswing 限量提供给 40+ 合作方)。4.7 在训练中主动压低了网络安全能力,并配套自动拦截高风险网络安全请求的防护机制。安全研究人员可通过 Cyber Verification Program 合规使用。
适合谁升级
- 复杂长链路编程任务 → 升(SWE-bench Verified 87.6%,领先幅度明显)
- Agent 自动化工作流 → 升(工具调用、视觉感知大幅提升)
- 金融/法律专业推理 → 升(GDPval-AA 第三方评测第一)
- 简单问答场景 → 4.6 够用,可观望成本影响
官方公告:http://t.cn/axmei2zl
#AI#Anthropic#Claude#大模型#基准测试#数据