第30A章 · Claude Code vs Codex CLI：终端AI编码Agent深度对比

2026年，终端AI编码Agent赛道呈现双雄争霸格局：Anthropic的Claude Code与OpenAI的Codex CLI。两者都从命令行出发，支持多文件自主编辑，但在架构哲学、安全模型、上下文管理等方面走出了截然不同的路径。本章基于源码分析与联网调研，进行逐维度的深度技术对比。

30A.1 基本面对比

维度	Claude Code	Codex CLI
开源状态	闭源（因Source Map泄露而公开）	Apache 2.0开源
GitHub Star	N/A（非官方镜像73K+）	67K+
核心语言	TypeScript（Bun运行时）	Rust + TypeScript
默认模型	Claude Opus 4.6	GPT-5.4
上下文窗口	1M（2026.3.13 GA，标准定价无加价）	1M（超272K按2倍计费）
发布时间	2025年5月	2025年2月（云端），CLI后续
IDE集成	VS Code、JetBrains、桌面app、浏览器	终端为主，VS Code扩展
贡献者	闭源团队	400+开源贡献者

30A.2 架构哲学：监督自主 vs 无监督自主

两者的核心分歧在于对Agent自主性的态度：

Claude Code — 监督自主（Supervised Autonomy）：

Plan Mode让用户在执行前审查变更方案
17种Hook生命周期事件允许在任意节点拦截、修改、取消操作
三级权限模型（Allow/Deny/Ask）对每个工具调用进行精细控制
AI分类器（TRANSCRIPT_CLASSIFIER）辅助决策
默认倾向：先问再做

Codex CLI — 无监督自主（Unsupervised Autonomy）：

Full-Auto模式（--full-auto）无需审批闸门
云端执行支持"发射后不管"（fire-and-forget）的任务委托
三级沙箱模式（read-only / workspace-write / danger-full-access）粒度较粗
Session Resume保持跨断线上下文
默认倾向：先做再报告

这一分歧反映了两家公司更深层的AI安全哲学：Anthropic倾向于"谨慎的能力释放"，OpenAI倾向于"最大化Agent效率"。

30A.3 沙箱与安全模型：内核级 vs 应用级

这是两者最显著的架构差异：

Codex CLI — OS内核级沙箱：

macOS:  Apple Seatbelt框架
Linux:  Landlock LSM + seccomp BPF
Windows: Restricted Tokens

操作系统在系统调用层面拦截违规操作，Agent代码根本无法绕过——即使模型"想要"执行危险操作，内核也会阻止。这是一种物理隔离思维。

云端更进一步：两阶段运行时模型——Setup阶段允许网络（安装依赖），Agent阶段默认断网。

受保护路径：.git目录递归只读、.agents/和.codex/目录只读。

Claude Code — 应用层Hook链：

Hook系统 → 权限规则引擎 → AI分类器 → 用户确认

安全检查在应用层运行，与Agent共享进程边界。这换来的是极高的可编程性——企业用户可以通过Hook实现任意自定义安全策略（如"禁止修改production分支"或"所有SQL操作需要双人审批"）。

此外，Claude Code的BashTool实施了25项安全检查（详见第9章），包括危险命令检测、嵌套命令解包、Zsh特定防御等。

安全模型对比总结：

维度	Claude Code	Codex CLI
隔离层级	应用层	OS内核层
绕过难度	中等（共享进程边界）	极高（系统调用拦截）
可编程性	极高（17种Hook + 自定义脚本）	低（三级模式切换）
网络控制	Hook级别控制	内核级默认断网
企业定制	丰富（策略限制API）	有限（配置文件）

30A.4 配置系统：CLAUDE.md vs AGENTS.md

两者的项目配置文件代表了不同的设计理念：

CLAUDE.md（Claude Code）：

四级发现层级：全局 → 用户 → 项目 → 本地
支持@include指令和条件规则（基于路径的frontmatter）
支持.claude/rules/*.md分散式规则
CLAUDE.local.md用于不提交到Git的本地偏好
在系统提示词中声明"OVERRIDE default behavior"
专有格式——仅Claude Code识别

AGENTS.md（Codex CLI）：

层级扫描：仓库级 → 用户级 → 管理员级 → 系统级
AGENTS.override.md用于本地覆盖
标准Markdown格式，无特殊语法
跨工具兼容——任何支持AGENTS.md标准的AI编码工具都可读取
正在成为Agent配置的事实标准

关键差异：CLAUDE.md更强大（条件规则、@include），AGENTS.md更便携（跨工具兼容）。Claude Code选择了功能深度，Codex CLI选择了生态广度。

30A.5 技能系统对比

两者都具备技能扩展机制，但设计重心不同：

Claude Code技能系统（详见第20章）：

13+个frontmatter元数据字段
Inline（注入系统提示词）与Fork（独立Agent会话）两种执行模式
29个内置技能
安全属性标记（safe/unsafe属性分类）
MCP技能支持
/skillify元技能自动创建技能

Codex CLI技能系统：

SKILL.md文件 + 可选scripts/、references/、assets/目录
显式调用（/skills命令、$提及语法）和隐式调用（基于描述匹配）
$skill-creator内置技能创建器
$skill-installer技能下载安装器
agents/openai.yaml定义UI元数据和调用策略
技能可打包为Plugin进行分发

差异分析：Claude Code的技能系统更注重安全性（属性标记、变量替换沙箱）和与系统提示词的深度集成；Codex CLI的技能系统更注重分发便利性（标准化目录结构、plugin打包、installer）。

重要更新：2026年3月13日，Anthropic宣布Claude Opus 4.6和Sonnet 4.6的1M token上下文窗口正式全面开放（GA），标准定价无任何加价。Claude Code的Max、Team和Enterprise用户使用Opus 4.6时默认启用1M上下文，Pro用户可通过/extra-usage命令开启。此外，单次请求可包含最多600张图片或PDF页面（此前为100张）。

Claude Code的三层压缩架构（1M GA后依然保留）：

Snip压缩 → Reactive压缩 → Micro压缩
  ↓              ↓              ↓
主动边界截断   API错误后触发   增量缓存编辑

自动压缩三级阈值：预警（20K buffer）→ 错误 → 触发压缩（13K buffer）
微压缩选择性清除10种工具的旧结果
压缩失败熔断器（连续3次失败后停止）
SYSTEM_PROMPT_DYNAMIC_BOUNDARY实现全局缓存优化
即使在1M窗口下，精细压缩仍能显著降低Token消耗和延迟

Codex CLI的上下文管理：

1M token上下文窗口，但超出标准272K的请求按2倍费率计费
云端执行时上下文完全托管于服务端
Session Resume保持跨断线的上下文连续性
新增GPT-5.4 mini模型，用于轻量任务和子Agent场景

设计哲学差异：随着Claude Code 1M上下文GA，两者在窗口容量上已持平。但核心差异依然存在——Claude Code保留了完整的三层压缩架构作为成本优化工具（1M标准定价 + 压缩节省Token），而Codex CLI的超长上下文需承担2倍溢价。Claude Code的Prompt Caching（90%折扣）配合压缩策略，在长会话场景中具有显著的经济优势。

30A.7 性能基准对比

综合多个独立评测（截至2026年3月）：

基准测试	Claude Code (Opus 4.6)	Codex CLI (GPT-5.4)	优势方
SWE-bench Verified	80.9%	~80%	Claude Code（微幅领先）
Terminal-Bench 2.0	65.4%	77.3%	Codex CLI
SWE-bench Pro	55.4%	56.8%	Codex CLI（微幅领先）
盲测代码质量	67%胜率	25%胜率	Claude Code
Token效率	基准线	约3-4倍更优	Codex CLI
生成速度	中等	240+ tok/s（Spark: 1000+）	Codex CLI
长会话稳定性	19%性能衰减（限流）	扩展会话行为不稳定	平局（各有问题）

解读：Claude Code在代码质量和复杂推理上领先，Codex CLI在速度、效率和终端操作基准上领先。两者在SWE-bench主基准上接近持平。

30A.8 定价与经济性

层级	Claude Code	Codex CLI
入门	Pro $20/月	ChatGPT Plus $20/月
重度用户	Max $100-200/月	API按量计费
API输入	Sonnet: $3/M, Opus: $5/M	GPT-5.4: $1.25/M
API输出	Sonnet: $15/M, Opus: $25/M	GPT-5.4: $10/M
缓存读取	-90%（$0.50/M for Opus）	原生支持，具体折扣未公开

经济性分析：Codex CLI的Token单价更低，加之3-4倍的Token效率优势，单次任务成本可能仅为Claude Code的1/10到1/4。但Claude Code的Prompt Caching机制（90%折扣）在长会话中大幅缩小了差距。值得注意的是，Claude Code的1M上下文按标准定价无加价，而Codex CLI超出272K部分按2倍计费——在大上下文场景中，Claude Code反而可能更经济。

30A.9 Harness Engineering对比

维度	Claude Code	Codex CLI
系统提示词架构	七层静态 + 13类动态段落	简洁指令 + AGENTS.md注入
缓存策略	三种模式（全局/组织/MCP工具）	服务端缓存，细节未公开
缓存边界标记	`SYSTEM_PROMPT_DYNAMIC_BOUNDARY`	无公开等效机制
归因追踪	归因头部（版本指纹+入口点）	OpenTelemetry可选导出
反蒸馏	假工具注入机制	无公开等效机制
提示词Hack防御	`<system-reminder>`标签区分元数据	沙箱隔离为主
上下文注入	Git状态 + CLAUDE.md + Memory	AGENTS.md + 仓库扫描

Claude Code在Harness Engineering的精细度上远超Codex CLI——这也部分解释了为何Claude Code在代码质量盲测中胜率更高。更精密的提示词装配意味着模型获得了更准确、更结构化的上下文。

30A.10 Agent编排模型

Claude Code的多Agent架构（三条技术路线）：

AgentTool：显式子Agent派生，隔离上下文，父Agent协调
Agent Swarm：多Agent群体协作
KAIROS：自主持久Agent，后台运行
Coordinator Mode：主Agent指挥多个工作Agent

Codex CLI的多Agent架构（2026年3月16日发布子Agent功能）：

三角色子Agent：explorer（只读分析）、worker（读写执行）、default（通用），最多6个并发
Git Worktree隔离：每个子Agent在独立worktree中工作，避免冲突
Cloud Execution：codex cloud exec发射后不管，支持跨小时/天/周的长时任务
spawn_agents_on_csv：从CSV批量派生任务，内置进度追踪和ETA
Agents SDK集成：将Codex CLI作为MCP Server嵌入OpenAI Agents SDK流水线
GitHub Action：CI/CD集成，PR自动生成

差异：Claude Code的Agent编排更侧重深度协调（Coordinator可以指挥、审查、要求返工），Codex CLI的子Agent体系同样成熟，侧重效率扩展（三角色分工 + worktree隔离 + 云端异步执行）。两者在多Agent能力上已形成各有侧重的对等格局。

30A.11 生态系统与扩展性

Claude Code：

MCP（Model Context Protocol）作为核心扩展协议
DXT插件格式（带安全校验的压缩包）
内置Plugin Registry
17种Hook生命周期事件
29+内置技能

Codex CLI：

MCP原生支持：STDIO和streaming HTTP服务器，codex mcp命令管理
Plugin Marketplace（2026年3月27日上线）：三组件架构（Skills + App Connectors + MCP Servers）
20+首发官方插件（Slack、Figma、Notion、Sentry等合作伙伴）
AGENTS.md跨工具兼容标准
Apache 2.0开源，400+贡献者
标准化Skill目录结构 + Plugin打包分发
SQLite持久化记忆系统：跨会话知识库，后台异步rollout提取
OpenTelemetry可观测性集成
GitHub Action原生CI/CD集成
Computer Use：GPT-5.4原生支持，首个通用模型级Computer Use能力

生态评估：Claude Code的MCP协议正在成为Agent工具集成的事实标准（多家竞品已支持）。但Codex CLI在2026年3月密集更新后，生态能力已大幅追赶——Plugin Marketplace、MCP原生支持、子Agent系统、SQLite记忆、Computer Use等能力的快速补齐，使其从"轻量开源替代"跃升为与Claude Code正面竞争的全功能平台。

30A.12 适用场景推荐

基于以上全维度对比，两者的最佳适用场景：

优先选择Claude Code：

复杂代码重构和架构设计
React/前端组件开发（盲测质量显著领先）
大型代码库深度分析
需要企业级安全策略定制（Hook + 策略限制API）
对代码质量要求极高的场景

优先选择Codex CLI：

DevOps/基础设施脚本编写
CI/CD自动化流水线
预算敏感的批量任务（3-4x Token效率）
安全关键环境（内核级沙箱）
需要开源审计和定制的场景
大型monorepo跨文件推理（1M上下文窗口）

双工具互补策略：越来越多的开发团队同时使用两者——Claude Code负责"思考密集型"任务（架构设计、复杂Bug修复），Codex CLI负责"执行密集型"任务（批量文件处理、自动化脚本、CI/CD）。独立评测发现，在安全审计场景中，两工具各自发现了对方遗漏的漏洞类别，双工具策略的覆盖率显著优于单一工具。

第30A章 · Claude Code vs Codex CLI：终端AI编码Agent深度对比