第30A章 · Claude Code vs Codex CLI:终端AI编码Agent深度对比
第30A章 · Claude Code vs Codex CLI:终端AI编码Agent深度对比
2026年,终端AI编码Agent赛道呈现双雄争霸格局:Anthropic的Claude Code与OpenAI的Codex CLI。两者都从命令行出发,支持多文件自主编辑,但在架构哲学、安全模型、上下文管理等方面走出了截然不同的路径。本章基于源码分析与联网调研,进行逐维度的深度技术对比。
30A.1 基本面对比
| 维度 | Claude Code | Codex CLI |
|---|---|---|
| 开源状态 | 闭源(因Source Map泄露而公开) | Apache 2.0开源 |
| GitHub Star | N/A(非官方镜像73K+) | 67K+ |
| 核心语言 | TypeScript(Bun运行时) | Rust + TypeScript |
| 默认模型 | Claude Opus 4.6 | GPT-5.4 |
| 上下文窗口 | 1M(2026.3.13 GA,标准定价无加价) | 1M(超272K按2倍计费) |
| 发布时间 | 2025年5月 | 2025年2月(云端),CLI后续 |
| IDE集成 | VS Code、JetBrains、桌面app、浏览器 | 终端为主,VS Code扩展 |
| 贡献者 | 闭源团队 | 400+开源贡献者 |
30A.2 架构哲学:监督自主 vs 无监督自主
两者的核心分歧在于对Agent自主性的态度:
Claude Code — 监督自主(Supervised Autonomy):
- Plan Mode让用户在执行前审查变更方案
- 17种Hook生命周期事件允许在任意节点拦截、修改、取消操作
- 三级权限模型(Allow/Deny/Ask)对每个工具调用进行精细控制
- AI分类器(TRANSCRIPT_CLASSIFIER)辅助决策
- 默认倾向:先问再做
Codex CLI — 无监督自主(Unsupervised Autonomy):
- Full-Auto模式(
--full-auto)无需审批闸门 - 云端执行支持"发射后不管"(fire-and-forget)的任务委托
- 三级沙箱模式(read-only / workspace-write / danger-full-access)粒度较粗
- Session Resume保持跨断线上下文
- 默认倾向:先做再报告
这一分歧反映了两家公司更深层的AI安全哲学:Anthropic倾向于"谨慎的能力释放",OpenAI倾向于"最大化Agent效率"。
30A.3 沙箱与安全模型:内核级 vs 应用级
这是两者最显著的架构差异:
Codex CLI — OS内核级沙箱:
macOS: Apple Seatbelt框架
Linux: Landlock LSM + seccomp BPF
Windows: Restricted Tokens操作系统在系统调用层面拦截违规操作,Agent代码根本无法绕过——即使模型"想要"执行危险操作,内核也会阻止。这是一种物理隔离思维。
云端更进一步:两阶段运行时模型——Setup阶段允许网络(安装依赖),Agent阶段默认断网。
受保护路径:.git目录递归只读、.agents/和.codex/目录只读。
Claude Code — 应用层Hook链:
Hook系统 → 权限规则引擎 → AI分类器 → 用户确认安全检查在应用层运行,与Agent共享进程边界。这换来的是极高的可编程性——企业用户可以通过Hook实现任意自定义安全策略(如"禁止修改production分支"或"所有SQL操作需要双人审批")。
此外,Claude Code的BashTool实施了25项安全检查(详见第9章),包括危险命令检测、嵌套命令解包、Zsh特定防御等。
安全模型对比总结:
| 维度 | Claude Code | Codex CLI |
|---|---|---|
| 隔离层级 | 应用层 | OS内核层 |
| 绕过难度 | 中等(共享进程边界) | 极高(系统调用拦截) |
| 可编程性 | 极高(17种Hook + 自定义脚本) | 低(三级模式切换) |
| 网络控制 | Hook级别控制 | 内核级默认断网 |
| 企业定制 | 丰富(策略限制API) | 有限(配置文件) |
30A.4 配置系统:CLAUDE.md vs AGENTS.md
两者的项目配置文件代表了不同的设计理念:
CLAUDE.md(Claude Code):
- 四级发现层级:全局 → 用户 → 项目 → 本地
- 支持
@include指令和条件规则(基于路径的frontmatter) - 支持
.claude/rules/*.md分散式规则 - CLAUDE.local.md用于不提交到Git的本地偏好
- 在系统提示词中声明"OVERRIDE default behavior"
- 专有格式——仅Claude Code识别
AGENTS.md(Codex CLI):
- 层级扫描:仓库级 → 用户级 → 管理员级 → 系统级
- AGENTS.override.md用于本地覆盖
- 标准Markdown格式,无特殊语法
- 跨工具兼容——任何支持AGENTS.md标准的AI编码工具都可读取
- 正在成为Agent配置的事实标准
关键差异:CLAUDE.md更强大(条件规则、@include),AGENTS.md更便携(跨工具兼容)。Claude Code选择了功能深度,Codex CLI选择了生态广度。
30A.5 技能系统对比
两者都具备技能扩展机制,但设计重心不同:
Claude Code技能系统(详见第20章):
- 13+个frontmatter元数据字段
- Inline(注入系统提示词)与Fork(独立Agent会话)两种执行模式
- 29个内置技能
- 安全属性标记(
safe/unsafe属性分类) - MCP技能支持
/skillify元技能自动创建技能
Codex CLI技能系统:
- SKILL.md文件 + 可选scripts/、references/、assets/目录
- 显式调用(
/skills命令、$提及语法)和隐式调用(基于描述匹配) $skill-creator内置技能创建器$skill-installer技能下载安装器agents/openai.yaml定义UI元数据和调用策略- 技能可打包为Plugin进行分发
差异分析:Claude Code的技能系统更注重安全性(属性标记、变量替换沙箱)和与系统提示词的深度集成;Codex CLI的技能系统更注重分发便利性(标准化目录结构、plugin打包、installer)。
30A.6 上下文窗口与压缩策略
重要更新:2026年3月13日,Anthropic宣布Claude Opus 4.6和Sonnet 4.6的1M token上下文窗口正式全面开放(GA),标准定价无任何加价。Claude Code的Max、Team和Enterprise用户使用Opus 4.6时默认启用1M上下文,Pro用户可通过/extra-usage命令开启。此外,单次请求可包含最多600张图片或PDF页面(此前为100张)。
Claude Code的三层压缩架构(1M GA后依然保留):
Snip压缩 → Reactive压缩 → Micro压缩
↓ ↓ ↓
主动边界截断 API错误后触发 增量缓存编辑- 自动压缩三级阈值:预警(20K buffer)→ 错误 → 触发压缩(13K buffer)
- 微压缩选择性清除10种工具的旧结果
- 压缩失败熔断器(连续3次失败后停止)
SYSTEM_PROMPT_DYNAMIC_BOUNDARY实现全局缓存优化- 即使在1M窗口下,精细压缩仍能显著降低Token消耗和延迟
Codex CLI的上下文管理:
- 1M token上下文窗口,但超出标准272K的请求按2倍费率计费
- 云端执行时上下文完全托管于服务端
- Session Resume保持跨断线的上下文连续性
- 新增GPT-5.4 mini模型,用于轻量任务和子Agent场景
设计哲学差异:随着Claude Code 1M上下文GA,两者在窗口容量上已持平。但核心差异依然存在——Claude Code保留了完整的三层压缩架构作为成本优化工具(1M标准定价 + 压缩节省Token),而Codex CLI的超长上下文需承担2倍溢价。Claude Code的Prompt Caching(90%折扣)配合压缩策略,在长会话场景中具有显著的经济优势。
30A.7 性能基准对比
综合多个独立评测(截至2026年3月):
| 基准测试 | Claude Code (Opus 4.6) | Codex CLI (GPT-5.4) | 优势方 |
|---|---|---|---|
| SWE-bench Verified | 80.9% | ~80% | Claude Code(微幅领先) |
| Terminal-Bench 2.0 | 65.4% | 77.3% | Codex CLI |
| SWE-bench Pro | 55.4% | 56.8% | Codex CLI(微幅领先) |
| 盲测代码质量 | 67%胜率 | 25%胜率 | Claude Code |
| Token效率 | 基准线 | 约3-4倍更优 | Codex CLI |
| 生成速度 | 中等 | 240+ tok/s(Spark: 1000+) | Codex CLI |
| 长会话稳定性 | 19%性能衰减(限流) | 扩展会话行为不稳定 | 平局(各有问题) |
解读:Claude Code在代码质量和复杂推理上领先,Codex CLI在速度、效率和终端操作基准上领先。两者在SWE-bench主基准上接近持平。
30A.8 定价与经济性
| 层级 | Claude Code | Codex CLI |
|---|---|---|
| 入门 | Pro $20/月 | ChatGPT Plus $20/月 |
| 重度用户 | Max $100-200/月 | API按量计费 |
| API输入 | Sonnet: $3/M, Opus: $5/M | GPT-5.4: $1.25/M |
| API输出 | Sonnet: $15/M, Opus: $25/M | GPT-5.4: $10/M |
| 缓存读取 | -90%($0.50/M for Opus) | 原生支持,具体折扣未公开 |
经济性分析:Codex CLI的Token单价更低,加之3-4倍的Token效率优势,单次任务成本可能仅为Claude Code的1/10到1/4。但Claude Code的Prompt Caching机制(90%折扣)在长会话中大幅缩小了差距。值得注意的是,Claude Code的1M上下文按标准定价无加价,而Codex CLI超出272K部分按2倍计费——在大上下文场景中,Claude Code反而可能更经济。
30A.9 Harness Engineering对比
| 维度 | Claude Code | Codex CLI |
|---|---|---|
| 系统提示词架构 | 七层静态 + 13类动态段落 | 简洁指令 + AGENTS.md注入 |
| 缓存策略 | 三种模式(全局/组织/MCP工具) | 服务端缓存,细节未公开 |
| 缓存边界标记 | SYSTEM_PROMPT_DYNAMIC_BOUNDARY | 无公开等效机制 |
| 归因追踪 | 归因头部(版本指纹+入口点) | OpenTelemetry可选导出 |
| 反蒸馏 | 假工具注入机制 | 无公开等效机制 |
| 提示词Hack防御 | <system-reminder>标签区分元数据 | 沙箱隔离为主 |
| 上下文注入 | Git状态 + CLAUDE.md + Memory | AGENTS.md + 仓库扫描 |
Claude Code在Harness Engineering的精细度上远超Codex CLI——这也部分解释了为何Claude Code在代码质量盲测中胜率更高。更精密的提示词装配意味着模型获得了更准确、更结构化的上下文。
30A.10 Agent编排模型
Claude Code的多Agent架构(三条技术路线):
- AgentTool:显式子Agent派生,隔离上下文,父Agent协调
- Agent Swarm:多Agent群体协作
- KAIROS:自主持久Agent,后台运行
- Coordinator Mode:主Agent指挥多个工作Agent
Codex CLI的多Agent架构(2026年3月16日发布子Agent功能):
- 三角色子Agent:explorer(只读分析)、worker(读写执行)、default(通用),最多6个并发
- Git Worktree隔离:每个子Agent在独立worktree中工作,避免冲突
- Cloud Execution:
codex cloud exec发射后不管,支持跨小时/天/周的长时任务 - spawn_agents_on_csv:从CSV批量派生任务,内置进度追踪和ETA
- Agents SDK集成:将Codex CLI作为MCP Server嵌入OpenAI Agents SDK流水线
- GitHub Action:CI/CD集成,PR自动生成
差异:Claude Code的Agent编排更侧重深度协调(Coordinator可以指挥、审查、要求返工),Codex CLI的子Agent体系同样成熟,侧重效率扩展(三角色分工 + worktree隔离 + 云端异步执行)。两者在多Agent能力上已形成各有侧重的对等格局。
30A.11 生态系统与扩展性
Claude Code:
- MCP(Model Context Protocol)作为核心扩展协议
- DXT插件格式(带安全校验的压缩包)
- 内置Plugin Registry
- 17种Hook生命周期事件
- 29+内置技能
Codex CLI:
- MCP原生支持:STDIO和streaming HTTP服务器,
codex mcp命令管理 - Plugin Marketplace(2026年3月27日上线):三组件架构(Skills + App Connectors + MCP Servers)
- 20+首发官方插件(Slack、Figma、Notion、Sentry等合作伙伴)
- AGENTS.md跨工具兼容标准
- Apache 2.0开源,400+贡献者
- 标准化Skill目录结构 + Plugin打包分发
- SQLite持久化记忆系统:跨会话知识库,后台异步rollout提取
- OpenTelemetry可观测性集成
- GitHub Action原生CI/CD集成
- Computer Use:GPT-5.4原生支持,首个通用模型级Computer Use能力
生态评估:Claude Code的MCP协议正在成为Agent工具集成的事实标准(多家竞品已支持)。但Codex CLI在2026年3月密集更新后,生态能力已大幅追赶——Plugin Marketplace、MCP原生支持、子Agent系统、SQLite记忆、Computer Use等能力的快速补齐,使其从"轻量开源替代"跃升为与Claude Code正面竞争的全功能平台。
30A.12 适用场景推荐
基于以上全维度对比,两者的最佳适用场景:
优先选择Claude Code:
- 复杂代码重构和架构设计
- React/前端组件开发(盲测质量显著领先)
- 大型代码库深度分析
- 需要企业级安全策略定制(Hook + 策略限制API)
- 对代码质量要求极高的场景
优先选择Codex CLI:
- DevOps/基础设施脚本编写
- CI/CD自动化流水线
- 预算敏感的批量任务(3-4x Token效率)
- 安全关键环境(内核级沙箱)
- 需要开源审计和定制的场景
- 大型monorepo跨文件推理(1M上下文窗口)
双工具互补策略:越来越多的开发团队同时使用两者——Claude Code负责"思考密集型"任务(架构设计、复杂Bug修复),Codex CLI负责"执行密集型"任务(批量文件处理、自动化脚本、CI/CD)。独立评测发现,在安全审计场景中,两工具各自发现了对方遗漏的漏洞类别,双工具策略的覆盖率显著优于单一工具。