Claude Code 0331 系统报告

第30A章 · Claude Code vs Codex CLI:终端AI编码Agent深度对比

第30A章 · Claude Code vs Codex CLI:终端AI编码Agent深度对比

2026年,终端AI编码Agent赛道呈现双雄争霸格局:Anthropic的Claude Code与OpenAI的Codex CLI。两者都从命令行出发,支持多文件自主编辑,但在架构哲学、安全模型、上下文管理等方面走出了截然不同的路径。本章基于源码分析与联网调研,进行逐维度的深度技术对比。

30A.1 基本面对比

维度Claude CodeCodex CLI
开源状态闭源(因Source Map泄露而公开)Apache 2.0开源
GitHub StarN/A(非官方镜像73K+)67K+
核心语言TypeScript(Bun运行时)Rust + TypeScript
默认模型Claude Opus 4.6GPT-5.4
上下文窗口1M(2026.3.13 GA,标准定价无加价)1M(超272K按2倍计费)
发布时间2025年5月2025年2月(云端),CLI后续
IDE集成VS Code、JetBrains、桌面app、浏览器终端为主,VS Code扩展
贡献者闭源团队400+开源贡献者

30A.2 架构哲学:监督自主 vs 无监督自主

两者的核心分歧在于对Agent自主性的态度:

Claude Code — 监督自主(Supervised Autonomy)

  • Plan Mode让用户在执行前审查变更方案
  • 17种Hook生命周期事件允许在任意节点拦截、修改、取消操作
  • 三级权限模型(Allow/Deny/Ask)对每个工具调用进行精细控制
  • AI分类器(TRANSCRIPT_CLASSIFIER)辅助决策
  • 默认倾向:先问再做

Codex CLI — 无监督自主(Unsupervised Autonomy)

  • Full-Auto模式(--full-auto)无需审批闸门
  • 云端执行支持"发射后不管"(fire-and-forget)的任务委托
  • 三级沙箱模式(read-only / workspace-write / danger-full-access)粒度较粗
  • Session Resume保持跨断线上下文
  • 默认倾向:先做再报告

这一分歧反映了两家公司更深层的AI安全哲学:Anthropic倾向于"谨慎的能力释放",OpenAI倾向于"最大化Agent效率"。

30A.3 沙箱与安全模型:内核级 vs 应用级

这是两者最显著的架构差异:

Codex CLI — OS内核级沙箱

macOS:  Apple Seatbelt框架
Linux:  Landlock LSM + seccomp BPF
Windows: Restricted Tokens

操作系统在系统调用层面拦截违规操作,Agent代码根本无法绕过——即使模型"想要"执行危险操作,内核也会阻止。这是一种物理隔离思维。

云端更进一步:两阶段运行时模型——Setup阶段允许网络(安装依赖),Agent阶段默认断网。

受保护路径:.git目录递归只读、.agents/.codex/目录只读。

Claude Code — 应用层Hook链

Hook系统 → 权限规则引擎 → AI分类器 → 用户确认

安全检查在应用层运行,与Agent共享进程边界。这换来的是极高的可编程性——企业用户可以通过Hook实现任意自定义安全策略(如"禁止修改production分支"或"所有SQL操作需要双人审批")。

此外,Claude Code的BashTool实施了25项安全检查(详见第9章),包括危险命令检测、嵌套命令解包、Zsh特定防御等。

安全模型对比总结

维度Claude CodeCodex CLI
隔离层级应用层OS内核层
绕过难度中等(共享进程边界)极高(系统调用拦截)
可编程性极高(17种Hook + 自定义脚本)低(三级模式切换)
网络控制Hook级别控制内核级默认断网
企业定制丰富(策略限制API)有限(配置文件)

30A.4 配置系统:CLAUDE.md vs AGENTS.md

两者的项目配置文件代表了不同的设计理念:

CLAUDE.md(Claude Code)

  • 四级发现层级:全局 → 用户 → 项目 → 本地
  • 支持@include指令和条件规则(基于路径的frontmatter)
  • 支持.claude/rules/*.md分散式规则
  • CLAUDE.local.md用于不提交到Git的本地偏好
  • 在系统提示词中声明"OVERRIDE default behavior"
  • 专有格式——仅Claude Code识别

AGENTS.md(Codex CLI)

  • 层级扫描:仓库级 → 用户级 → 管理员级 → 系统级
  • AGENTS.override.md用于本地覆盖
  • 标准Markdown格式,无特殊语法
  • 跨工具兼容——任何支持AGENTS.md标准的AI编码工具都可读取
  • 正在成为Agent配置的事实标准

关键差异:CLAUDE.md更强大(条件规则、@include),AGENTS.md更便携(跨工具兼容)。Claude Code选择了功能深度,Codex CLI选择了生态广度。

30A.5 技能系统对比

两者都具备技能扩展机制,但设计重心不同:

Claude Code技能系统(详见第20章):

  • 13+个frontmatter元数据字段
  • Inline(注入系统提示词)与Fork(独立Agent会话)两种执行模式
  • 29个内置技能
  • 安全属性标记(safe/unsafe属性分类)
  • MCP技能支持
  • /skillify元技能自动创建技能

Codex CLI技能系统

  • SKILL.md文件 + 可选scripts/、references/、assets/目录
  • 显式调用(/skills命令、$提及语法)和隐式调用(基于描述匹配)
  • $skill-creator内置技能创建器
  • $skill-installer技能下载安装器
  • agents/openai.yaml定义UI元数据和调用策略
  • 技能可打包为Plugin进行分发

差异分析:Claude Code的技能系统更注重安全性(属性标记、变量替换沙箱)和与系统提示词的深度集成;Codex CLI的技能系统更注重分发便利性(标准化目录结构、plugin打包、installer)。

30A.6 上下文窗口与压缩策略

重要更新:2026年3月13日,Anthropic宣布Claude Opus 4.6和Sonnet 4.6的1M token上下文窗口正式全面开放(GA),标准定价无任何加价。Claude Code的Max、Team和Enterprise用户使用Opus 4.6时默认启用1M上下文,Pro用户可通过/extra-usage命令开启。此外,单次请求可包含最多600张图片或PDF页面(此前为100张)。

Claude Code的三层压缩架构(1M GA后依然保留):

Snip压缩 → Reactive压缩 → Micro压缩
  ↓              ↓              ↓
主动边界截断   API错误后触发   增量缓存编辑
  • 自动压缩三级阈值:预警(20K buffer)→ 错误 → 触发压缩(13K buffer)
  • 微压缩选择性清除10种工具的旧结果
  • 压缩失败熔断器(连续3次失败后停止)
  • SYSTEM_PROMPT_DYNAMIC_BOUNDARY实现全局缓存优化
  • 即使在1M窗口下,精细压缩仍能显著降低Token消耗和延迟

Codex CLI的上下文管理

  • 1M token上下文窗口,但超出标准272K的请求按2倍费率计费
  • 云端执行时上下文完全托管于服务端
  • Session Resume保持跨断线的上下文连续性
  • 新增GPT-5.4 mini模型,用于轻量任务和子Agent场景

设计哲学差异:随着Claude Code 1M上下文GA,两者在窗口容量上已持平。但核心差异依然存在——Claude Code保留了完整的三层压缩架构作为成本优化工具(1M标准定价 + 压缩节省Token),而Codex CLI的超长上下文需承担2倍溢价。Claude Code的Prompt Caching(90%折扣)配合压缩策略,在长会话场景中具有显著的经济优势。

30A.7 性能基准对比

综合多个独立评测(截至2026年3月):

基准测试Claude Code (Opus 4.6)Codex CLI (GPT-5.4)优势方
SWE-bench Verified80.9%~80%Claude Code(微幅领先)
Terminal-Bench 2.065.4%77.3%Codex CLI
SWE-bench Pro55.4%56.8%Codex CLI(微幅领先)
盲测代码质量67%胜率25%胜率Claude Code
Token效率基准线约3-4倍更优Codex CLI
生成速度中等240+ tok/s(Spark: 1000+)Codex CLI
长会话稳定性19%性能衰减(限流)扩展会话行为不稳定平局(各有问题)

解读:Claude Code在代码质量和复杂推理上领先,Codex CLI在速度、效率和终端操作基准上领先。两者在SWE-bench主基准上接近持平。

30A.8 定价与经济性

层级Claude CodeCodex CLI
入门Pro $20/月ChatGPT Plus $20/月
重度用户Max $100-200/月API按量计费
API输入Sonnet: $3/M, Opus: $5/MGPT-5.4: $1.25/M
API输出Sonnet: $15/M, Opus: $25/MGPT-5.4: $10/M
缓存读取-90%($0.50/M for Opus)原生支持,具体折扣未公开

经济性分析:Codex CLI的Token单价更低,加之3-4倍的Token效率优势,单次任务成本可能仅为Claude Code的1/10到1/4。但Claude Code的Prompt Caching机制(90%折扣)在长会话中大幅缩小了差距。值得注意的是,Claude Code的1M上下文按标准定价无加价,而Codex CLI超出272K部分按2倍计费——在大上下文场景中,Claude Code反而可能更经济。

30A.9 Harness Engineering对比

维度Claude CodeCodex CLI
系统提示词架构七层静态 + 13类动态段落简洁指令 + AGENTS.md注入
缓存策略三种模式(全局/组织/MCP工具)服务端缓存,细节未公开
缓存边界标记SYSTEM_PROMPT_DYNAMIC_BOUNDARY无公开等效机制
归因追踪归因头部(版本指纹+入口点)OpenTelemetry可选导出
反蒸馏假工具注入机制无公开等效机制
提示词Hack防御<system-reminder>标签区分元数据沙箱隔离为主
上下文注入Git状态 + CLAUDE.md + MemoryAGENTS.md + 仓库扫描

Claude Code在Harness Engineering的精细度上远超Codex CLI——这也部分解释了为何Claude Code在代码质量盲测中胜率更高。更精密的提示词装配意味着模型获得了更准确、更结构化的上下文。

30A.10 Agent编排模型

Claude Code的多Agent架构(三条技术路线):

  1. AgentTool:显式子Agent派生,隔离上下文,父Agent协调
  2. Agent Swarm:多Agent群体协作
  3. KAIROS:自主持久Agent,后台运行
  4. Coordinator Mode:主Agent指挥多个工作Agent

Codex CLI的多Agent架构(2026年3月16日发布子Agent功能):

  1. 三角色子Agent:explorer(只读分析)、worker(读写执行)、default(通用),最多6个并发
  2. Git Worktree隔离:每个子Agent在独立worktree中工作,避免冲突
  3. Cloud Executioncodex cloud exec发射后不管,支持跨小时/天/周的长时任务
  4. spawn_agents_on_csv:从CSV批量派生任务,内置进度追踪和ETA
  5. Agents SDK集成:将Codex CLI作为MCP Server嵌入OpenAI Agents SDK流水线
  6. GitHub Action:CI/CD集成,PR自动生成

差异:Claude Code的Agent编排更侧重深度协调(Coordinator可以指挥、审查、要求返工),Codex CLI的子Agent体系同样成熟,侧重效率扩展(三角色分工 + worktree隔离 + 云端异步执行)。两者在多Agent能力上已形成各有侧重的对等格局。

30A.11 生态系统与扩展性

Claude Code

  • MCP(Model Context Protocol)作为核心扩展协议
  • DXT插件格式(带安全校验的压缩包)
  • 内置Plugin Registry
  • 17种Hook生命周期事件
  • 29+内置技能

Codex CLI

  • MCP原生支持:STDIO和streaming HTTP服务器,codex mcp命令管理
  • Plugin Marketplace(2026年3月27日上线):三组件架构(Skills + App Connectors + MCP Servers)
  • 20+首发官方插件(Slack、Figma、Notion、Sentry等合作伙伴)
  • AGENTS.md跨工具兼容标准
  • Apache 2.0开源,400+贡献者
  • 标准化Skill目录结构 + Plugin打包分发
  • SQLite持久化记忆系统:跨会话知识库,后台异步rollout提取
  • OpenTelemetry可观测性集成
  • GitHub Action原生CI/CD集成
  • Computer Use:GPT-5.4原生支持,首个通用模型级Computer Use能力

生态评估:Claude Code的MCP协议正在成为Agent工具集成的事实标准(多家竞品已支持)。但Codex CLI在2026年3月密集更新后,生态能力已大幅追赶——Plugin Marketplace、MCP原生支持、子Agent系统、SQLite记忆、Computer Use等能力的快速补齐,使其从"轻量开源替代"跃升为与Claude Code正面竞争的全功能平台。

30A.12 适用场景推荐

基于以上全维度对比,两者的最佳适用场景:

优先选择Claude Code

  • 复杂代码重构和架构设计
  • React/前端组件开发(盲测质量显著领先)
  • 大型代码库深度分析
  • 需要企业级安全策略定制(Hook + 策略限制API)
  • 对代码质量要求极高的场景

优先选择Codex CLI

  • DevOps/基础设施脚本编写
  • CI/CD自动化流水线
  • 预算敏感的批量任务(3-4x Token效率)
  • 安全关键环境(内核级沙箱)
  • 需要开源审计和定制的场景
  • 大型monorepo跨文件推理(1M上下文窗口)

双工具互补策略:越来越多的开发团队同时使用两者——Claude Code负责"思考密集型"任务(架构设计、复杂Bug修复),Codex CLI负责"执行密集型"任务(批量文件处理、自动化脚本、CI/CD)。独立评测发现,在安全审计场景中,两工具各自发现了对方遗漏的漏洞类别,双工具策略的覆盖率显著优于单一工具。


On this page