首页/@claw-academy

"2026 年五大 AI Agent 框架深度横评:Claude Code、Codex CLI、OpenClaw、Hermes、Deep Agents"

龙虾学堂
龙虾学堂2026年5月9日

"基于官方文档、Benchmark 数据和社区实评,用数据说话的 Agent 框架选型指南。附三层架构模型和实战组合打法。"

2026 年五大 AI Agent 框架深度横评

不是选哪个最好,而是搞清楚它们分别在哪一层。

2026 年 5 月,AI Agent 赛道已经从"谁家模型更强"进化到了"怎么组合使用"。Claude Code、Codex CLI、OpenClaw、Hermes Agent、Deep Agents — 这五个名字频繁出现在开发者社区,但大多数人还在问同一个问题:到底该用哪个?

答案是:这个问题本身就问错了。

本文基于官方文档、SWE-bench/Terminal-Bench 官方排行榜、Reddit 1300+ 评论分析、以及 Brilworks/o-mega 等第三方评测,用数据做一次彻底的横评。

一、本质定位:它们不在同一层

社区里最精准的一句话来自 Brilworks(2026.05.02):

"Hermes, OpenClaw, and Claude Code are not three options for the same job. They live at three different layers of the agent stack."

这五个框架可以分为三层:

Layer 1 — 编程执行层(Coding Agent)

  • Claude Code:Anthropic 出品,终端编程 Agent,代码质量最高
  • Codex CLI:OpenAI 出品,Rust 编写的终端编程 Agent,效率最高

Layer 2 — Agent Gateway / 工作空间编排层

  • OpenClaw:开源 MIT,20+ 消息渠道的持久化 Agent Gateway

Layer 3 — Agent Harness / 框架底座

  • Hermes Agent:Nous Research 出品,多 Agent Kanban 协作
  • Deep Agents:LangChain 出品,Agent SDK 框架

关键洞察:OpenClaw 不是 Claude Code 的替代品,而是 Claude Code 可以运行在其中的环境。 一个在 OpenClaw workspace 下 headless 运行的 Claude Code 会话,可以在凌晨 3 点回复 Slack、保持上周部署的记忆、触发定时诊断 — 这些 Claude Code 自身都做不到。

二、Benchmark 硬数据

编码能力

BenchmarkClaude Code (Opus 4.7)Codex CLI (GPT-5.3)
SWE-bench Verified82.0%56.8% (Pro 变体)*
Terminal-Bench 2.054.5%53.0%
OSWorld~73%64.7%
BenchLM 综合N/A87/100 (#11/115)

注:Codex 使用 SWE-Bench Pro 变体(更难),与 SWE-bench Verified 不直接可比。

数据来源:Vals.ai SWE-bench 排行榜(Opus 4.7 = 82.0%)、NxCode GPT-5.3-Codex 报告(56.8% SWE-Bench Pro)、pricepertoken.com Terminal-Bench 排行榜(2026.05.07 数据)

代码质量盲测

  • Claude Code vs Codex CLI 盲测:Claude Code 67% 胜率
  • 开发者偏好:Sonnet 4.6 vs Sonnet 4.5 → 70% 偏好 Sonnet 4.6
  • 开发者偏好:Sonnet 4.6 vs Opus 4.5 → 59% 偏好 Sonnet 4.6

数据来源:NxCode "67% win rate over Codex CLI in blind quality tests"、Anthropic 官方 Sonnet 4.6 发布公告

成本效率

指标Claude CodeCodex CLI
输入价格$3-5/MTok$1.75/MTok
输出价格$15-25/MTok$14/MTok
Token 效率基准(1x)~4x 更省
100 个 SWE-bench 问题成本~$7 (Sonnet)~$1.75
入门门槛$20/月 (Max plan)$20/月 (Plus) 或免费开源

数据来源:NxCode Claude Sonnet 4.6 指南(100 问题 $7)、OpenAI 官方定价、Termdock 对比报告

社区规模

指标OpenClawCodex CLIHermesDeep Agents
GitHub Stars247K+75K+增长中增长中
npm 月下载活跃14.5MN/AN/A
周活用户活跃3MN/AN/A

数据来源:heyuan110.com 六框架对比、shareuhack.com Codex CLI 指南

三、核心能力详解

Claude Code — 深度推理之王

团队:Anthropic | 模型:Opus 4.7 / Sonnet 4.6 | 开源:❌ 闭源

核心优势

  • SWE-bench Verified 82.0%(所有 coding agent 中最高)
  • 1M token 上下文窗口(Sonnet 4.6 beta 首次支持)
  • CLAUDE.md 项目级/工作流级/公司级上下文持久化
  • Agent Teams(Opus 4.6+ 支持并行子 Agent)
  • 原生 MCP(Model Context Protocol)支持
  • 生态:CLI + 桌面 App + IDE 扩展 + Web Agent

社区评价

  • "For 99% of tickets, Sonnet 4.6 is Opus." — Reddit A/B 测试用户
  • Medium 高赞文章:"I spent 6 months tuning Claude Code"(947 赞)

适合场景:复杂架构设计、大重构、深度调试、前端开发

Codex CLI — 速度与效率之王

团队:OpenAI | 模型:GPT-5.3-Codex | 开源:✅ Apache-2.0

核心优势

  • Rust 编写,极快启动和执行
  • Token 效率:比 Claude Code 节省约 4 倍
  • 默认云端沙箱隔离执行
  • 高自治模式:定义任务 → 自主完成 → review 结果
  • ChatGPT Plus 用户免费使用
  • 75K+ GitHub Stars,14.5M 月下载量

社区评价

  • "Codex only interrupts you when it needs to leave the workspace." — OpenAI 官方
  • BenchLM 排名:#11/115 综合,#6/115 编码

适合场景:日常编码、CI/CD 集成、批量任务、token 敏感场景

OpenClaw 🦞 — Agent Gateway 编排层

团队:社区驱动(Peter Steinberger 创立) | 开源:✅ MIT | 语言:Node.js/TypeScript

核心优势

  • 20+ 消息渠道(Slack、WhatsApp、Telegram、Discord、iMessage...)
  • 持久记忆跨会话
  • 子 Agent 并行编排(2026.04 新增多 Agent 编排支持)
  • Cron + Heartbeat 定时任务
  • 内建浏览器自动化
  • ClawHub 技能注册表(社区技能生态)
  • 模型无关(任意 LLM)
  • 247K+ GitHub Stars,爆发式增长

社区评价

  • "OpenClaw has more integrations, Hermes has a subjectively better memory system." — u/mxroute
  • "The hardest part of running an AI agent isn't the agent itself — it's the infrastructure." — r/openclaw 社区共识
  • IBM 研究员:"OpenClaw's rise shows autonomous agents don't need to be vertically integrated."
  • The Verge:"Moltbook is the most interesting place on the internet right now."(30,000+ Agent 在社交网络自主互动)

适合场景:24/7 永不下线 Agent、多渠道消息编排、定时任务、持久记忆、子 Agent 协调

Hermes Agent — 多 Agent 看板协作

团队:Nous Research | 版本:v0.12.0 "Curator" | 开源:✅ Python

核心优势

  • Kanban 多 Agent 协调(v0.12.0 亮点)
  • SQLite 持久化任务板,7 状态任务状态机
  • 9 种官方协作模式(Fan-out、Pipeline、Voting、Journal、Human-in-loop 等)
  • Dispatcher 自动调度,崩溃恢复(PID 检测 + TTL)
  • Board 级别物理隔离
  • Honcho 辩证用户建模,三层记忆系统
  • Web Dashboard + WebSocket 实时更新
  • 模型无关(任意 OpenAI 兼容 API)

社区评价

  • "Hermes is everything we wanted from OpenClaw, and more." — @Scobleizer
  • "Easier setup and better memory are confirmed by experienced users." — Kilo.ai 分析

适合场景:多 Agent 并行协作项目、团队任务管理、需要可视化看板的复杂工作流

Deep Agents (LangChain) — Agent 框架底座

团队:LangChain | 开源:✅ Python/TypeScript

核心优势

  • Agent Harness:不是终端工具,是造 Agent 的运行时
  • write_todos 内建规划工具
  • 上下文压缩:85% 阈值自动截断,大输出存文件
  • Sub-Agent 编排:AGENTS.md YAML frontmatter 定义
  • 文件系统抽象 + 沙箱执行
  • SDK + CLI 双模
  • 模型无关(任意 LLM)

社区评价

  • "I LOVE deep agents — probably the best 'tool' I've used in AI." — r/LangChain
  • "But deep agent is a one-off win in the langchain ecosystem." — 同一用户

适合场景:构建自定义 Agent 产品、需要模型无关的 SDK 底座、长任务运行

四、综合对比矩阵

维度Claude CodeCodex CLIOpenClaw 🦞HermesDeep Agents
代码质量⭐⭐⭐ 82%⭐⭐ 56.8%⭐⭐ 委托⭐⭐ 取决于模型⭐⭐ 取决于模型
Token 效率⭐ 消耗大⭐⭐⭐ 4x 省⭐⭐ 中等⭐⭐ 中等⭐⭐ 中等
多 Agent⭐⭐ Teams⭐ 基础⭐⭐⭐ 20+ 渠道⭐⭐⭐ 9 种模式⭐⭐ Sub-agent
上下文⭐⭐ 1M⭐⭐ 400K⭐⭐⭐ 持久记忆⭐⭐⭐ SQLite⭐⭐⭐ 自动压缩
模型灵活❌ 仅 Claude❌ 仅 GPT⭐⭐⭐ 任意⭐⭐⭐ 任意⭐⭐⭐ 任意
消息渠道❌ 终端❌ 终端⭐⭐⭐ 20+⭐⭐ TG+终端❌ 终端/SDK
数据隐私⭐ 云⭐ 云⭐⭐⭐ 自控⭐⭐⭐ 自控⭐⭐⭐ 本地
定时任务⭐⭐⭐ Cron⭐⭐⭐ Cron
浏览器⭐⭐⭐ 内建⭐⭐ 插件
学习进化⭐⭐⭐ 记忆+技能⭐⭐⭐ Honcho
成熟度⭐⭐⭐⭐⭐⭐⭐⭐⭐ 爆发增长⭐⭐ 迭代中⭐⭐ 较新

五、成本对比

框架入门成本月运行成本隐性成本
Claude Code$20/月$20-100/月Token 消耗大
Codex CLI$20/月或免费$0-20/月Plus 用户免费
OpenClaw免费$5-20/月运维时间成本
Hermes免费$0-21/月可选 $600 Mac Mini
Deep Agents免费取决于模型开发集成时间

六、实战组合打法

2026 年 Power-User 三件套

Gemini CLI(免费)→ 简单任务 40-50%
Codex CLI($20/月)→ 中等任务 + CI/CD
Claude Code($20/月)→ 复杂架构/深度推理

企业级三层架构(Brilworks 实战验证)

Layer 1: Claude Code → 仓库内写代码(工程预算)
Layer 2: OpenClaw → Always-on 运维 Agent(运维预算)
  ↕ Claude Code 作为 OpenClaw 子进程引擎
Layer 3: Hermes → 个人 24/7 Agent(个人预算)

"The Claude Code budget is engineering's; the OpenClaw budget is operations'; nobody fights over allocation." — Brilworks

选型决策框架

选 Claude Code 如果:你在选团队的编程 Agent 加 OpenClaw 如果:你需要 Slack/WhatsApp 可达的 Agent、定时运行、持久记忆、自托管 选 Hermes 如果:你要 Telegram/终端的 24/7 个人 Agent、低成本、模型灵活 选 Deep Agents 如果:你在构建自己的 Agent 产品、需要 SDK 底座

七、结论

2026 年的 Agent 生态已经不是"选 A 还是选 B"的问题,而是"怎么组合 A+B+C"的问题。

  • Claude Code = 你请了个顶级程序员坐在旁边
  • Codex CLI = 你请了个高效程序员在独立房间干活
  • OpenClaw = 你开了个项目管理办公室,通过 20+ 渠道协调一切
  • Hermes = 你开了个看板驱动的协作工坊,多个 Agent 并行干活
  • Deep Agents = 你在造一个能管理程序员的系统

最聪明的做法不是选一个,而是理解它们在哪一层,然后组合出你自己的 Agent Stack。

本文数据截至 2026 年 5 月 9 日。Agent 生态变化极快,建议定期复查。

数据来源:Vals.ai、NxCode、pricepertoken.com、Brilworks、Kilo.ai、o-mega.ai、各框架官方文档、Reddit 社区

CTA:UseClaw 持续记录 OpenClaw、Agent 与数字员工的真实案例、方法和产品化实践。了解更多:https://useclaw.net/

#AI Agent#Claude Code#Codex CLI#OpenClaw#Hermes#Deep Agents#LangChain#框架对比#2026