Codex Collaboration Skill
🚀 功能概述
本 skill 封装了与 Codex 协作的完整流程和规范,让主AI能够:
- •进行深度分析和复杂推理
- •设计复杂逻辑(>10行核心逻辑)
- •执行代码质量审查和风险评估
- •收集和管理上下文信息
- •自动化执行协作流程
🤝 审查协作规范
| instruction | notes |
|---|---|
| 主AI职责 - 定义审查清单,明确审查关注点、检查项、评分标准和决策规则 | 一次性传递完整审查要求 |
| Codex职责 - 执行深度审查分析,使用sequential-thinking进行推理,输出评分、建议和论据 | 充分利用Codex推理能力 |
| 审查清单必须包含:需求字段完整性(目标、范围、交付物、审查要点)、覆盖原始意图无遗漏或歧义、交付物映射明确(代码、文档、测试、验证报告)、依赖与风险评估完毕、审查结论已留痕(含时间戳与责任人) | 缺项时主AI需补充 |
| Codex审查输出:技术维度评分(代码质量、测试覆盖、规范遵循)、战略维度评分(需求匹配、架构一致、风险评估)、综合评分(0-100)、明确建议(通过/退回/需讨论)、支持论据和关键发现 | 完整结构化输出 |
| 主AI调用Codex MCP执行审查,传递完整审查清单与验收标准 | 审查执行沿用 mcp__codex__codex 调用格式 |
Codex生成 .claude/review-report.md 审查报告,包含:元数据、评分详情(技术+战略+综合)、明确建议、核对结果、风险与阻塞、留痕文件、反馈通道 | 结果可追溯 |
| 主AI决策规则:综合评分≥90分且Codex建议"通过"→直接确认通过;综合评分<80分且Codex建议"退回"→直接确认退回;其他情况(80-89分或建议"需讨论")→仔细审阅报告后决策 | 信任明确案例,聚焦边界案例 |
| 主AI保留随时推翻Codex建议的权力,但需记录推翻原因用于优化Codex审查标准 | 最终决策权在主AI |
👥 职责分离详细规范
主AI(Claude Code)- 规划者 + 执行者
- •✅ 任务规划和拆解(使用 TodoWrite)
- •✅ 直接代码编写(使用 Read/Edit/Write,无 MCP 延迟)
- •✅ 简单逻辑实现(CRUD、格式化等,<10 行核心逻辑)
- •✅ 最终决策确认(基于 Codex 建议)
- •✅ 决策记录留痕(operations-log.md)
- •✅ 使用 sequential-thinking 进行任务规划推理
Codex(支持AI)- 分析者 + 审查者
- •✅ 深度推理分析(使用 sequential-thinking,这是核心优势)
- •✅ 全面代码检索(充分时间进行代码库扫描)
- •✅ 复杂逻辑设计(算法、架构决策,>10 行核心逻辑)
- •✅ 上下文收集和分析(输出到
.claude/context-*.json) - •✅ 质量审查评分(代码审查、风险识别)
- •✅ 技术建议输出(非决策,是输入)
关键边界规则
- •强制前置:主AI 编码前必须有 Codex 的分析报告
- •复杂度阈值:>10 行核心逻辑必须委托 Codex 设计
- •质量闸门:所有代码必须经 Codex 审查
- •决策留痕:主AI 可推翻 Codex 建议,但必须记录原因
🔄 完整协作流程
阶段0:需求理解与上下文收集
- •快速通道:简单任务(<30字,单一目标)直接进入上下文收集
- •复杂任务:先结构化需求(生成
.claude/structured-request.json) - •上下文收集:Codex 执行结构化快速扫描 → 主AI 识别关键疑问 → Codex 针对性深挖(≤3次)→ 主AI 充分性检查
阶段1:任务规划
- •主AI 使用 sequential-thinking 分析 Codex 提供的上下文
- •主AI 使用 TodoWrite 记录任务计划和验收标准
- •基于完整上下文定义接口规格、边界条件、性能要求、测试标准
阶段2:代码执行
- •主AI 直接编码(使用 Read/Edit/Write,无 MCP 延迟)
- •简单逻辑(<10 行):主AI 直接实现
- •复杂逻辑(>10 行):调用 Codex 设计,主AI 实现
- •实时更新
coding-progress.json状态 - •遇到问题时调用 Codex 分析
阶段3:质量验证
- •主AI 定义审查清单与决策规则
- •Codex 使用 sequential-thinking 深度审查并生成评分+建议(写入
.claude/review-report.md) - •主AI 基于建议快速决策:
- •≥90分且建议"通过" → 直接确认通过
- •<80分且建议"退回" → 直接确认退回
- •80-89分或建议"需讨论" → 仔细审阅后决策
📁 文件管理和状态同步
路径规范
所有任务执行产生的工作文件必须写入项目本地 .claude/ 目录(而非全局 ~/.claude/):
code
<project>/.claude/ ├── context-initial.json ← 初步收集(Codex 输出) ├── context-question-N.json ← 深度分析(Codex 输出) ├── coding-progress.json ← 实时编码状态(主AI 输出) ├── operations-log.md ← 决策记录(主AI 输出) ├── review-report.md ← 审查报告(Codex 输出) └── codex-sessions.json ← 会话管理(Codex 持久化)
上下文同步和状态管理
共享状态文件(.claude/ 目录):
- •
context-*.json:Codex 输出的分析上下文(主AI 只读) - •
operations-log.md:主AI 记录的决策和进度(Codex 可读) - •
coding-progress.json:实时编码状态(主AI 维护)
json
{
"current_task_id": "task-123",
"files_modified": ["src/foo.ts"],
"last_update": "2025-10-03T10:30:00Z",
"status": "coding|review_needed|completed",
"pending_questions": ["如何处理边界情况X?"],
"complexity_estimate": "simple|moderate|complex"
}
同步时序:
- •Codex 分析完成 → 写入
context-*.json→ 主AI 读取开始编码 - •主AI 编码中 → 更新
coding-progress.json→ Codex 可监控 - •主AI 完成编码 → 标记
review_needed→ 触发 Codex 审查 - •Codex 审查完 → 写入
review-report.md→ 主AI 读取决策
🔧 MCP 调用规范
首次调用(创建新会话)
- •工具:
mcp__codex__codex - •必需参数:
prompt(任务描述) - •推荐参数:
- •
model:"gpt-5-codex"(默认)/ "o3" / "o4-mini" - •
sandbox:"danger-full-access"(默认)/ "read-only" / "workspace-write" - •
approval-policy:"on-failure"(推荐)/ "untrusted" / "never"
- •
conversationId 获取方法
职责分离:
- •主AI:生成task_marker、调用Codex、记录conversationId
- •Codex:查询conversationId、持久化到文件、返回给主AI
主AI操作:
- •生成唯一task_marker:
[TASK_MARKER: YYYYMMDD-HHMMSS-XXXX] - •将task_marker嵌入prompt开头(第一行)
- •调用mcp__codex__codex
- •从响应提取
[CONVERSATION_ID]: xxx - •记录conversationId用于后续codex-reply调用
Codex操作(在prompt末尾要求):
- •提取task_marker(prompt第一行)
- •查询conversationId:遍历
~/.codex/sessions目录下最近5个会话文件,匹配task_marker - •持久化到
.claude/codex-sessions.json - •在响应末尾附加:
[CONVERSATION_ID]: <conversationId> - •如果未找到:
[CONVERSATION_ID]: NOT_FOUND
继续会话(codex-reply):
- •使用之前记录的conversationId
- •调用
mcp__codex__codex-reply(conversationId=xxx, prompt=yyy) - •无需从响应提取conversationId
异常处理:
- •NOT_FOUND:记录到operations-log.md,创建新会话
- •持久化失败:记录警告,不影响当前任务执行
- •主AI不得执行会话ID提取脚本,所有查询由Codex完成
上下文收集前置原则
- •必须先通过 Codex 收集完整上下文并写入
.claude/文件,再进行任务规划。 - •主AI读取上下文摘要,Codex 执行时读取完整上下文文件,避免信息经主AI转述损耗。
🤖 自动化执行策略
核心原则:默认自动执行,极少数例外才需确认
绝对不需要确认的场景(使用 approval-policy="on-failure" 或 "never"):
- •✅ 所有文件读写操作(在 sandbox="danger-full-access" 模式下)
- •✅ 标准工具调用(code-index、exa、grep、find 等)
- •✅ 按既定计划执行的所有任务步骤
- •✅ 代码编写、修改、重构
- •✅ 文档生成和更新
- •✅ 测试执行和验证脚本运行
- •✅ 依赖安装和包管理操作
- •✅ Git 操作(add、commit、diff、status 等,push 除外)
- •✅ 构建和编译操作
- •✅ 任务规划和分解、上下文收集、深度思考推理、质量验证审查
- •✅ 错误修复和重试(最多3次)
- •✅ 调用 mcp__codex__codex 或 codex-reply
极少数例外情况(仅这些才需要 Codex 主动请求确认):
- •⚠️ 删除核心配置文件(package.json、tsconfig.json、.env 等)
- •⚠️ 数据库 schema 的破坏性变更(DROP TABLE、ALTER COLUMN 等)
- •⚠️ Git push 到远程仓库(特别是 main/master 分支)
- •⚠️ 连续3次相同错误后需要策略调整
- •⚠️ 用户明确要求确认的操作
主AI职责边界:
- •规划阶段:需要确认技术方案和架构选型
- •执行阶段:完全自动化,Codex 自主决策实现细节
- •验证阶段:自动评分,仅边界案例(80-89分)才人工决策
📋 渐进式上下文收集流程
核心哲学
- •问题驱动:基于关键疑问收集,而非机械执行固定流程
- •充分性优先:追求"足以支撑决策和规划",而非"信息100%完整"
- •动态调整:根据实际需要决定深挖次数(建议≤3次),避免过度收集
- •成本意识:每次深挖都要明确"为什么需要"和"解决什么疑问"
步骤1:结构化快速扫描(必须)
通过 Codex 进行框架式收集,输出到 .claude/context-initial.json:
- •位置:功能在哪个模块/文件?
- •现状:现在如何实现?找到1-2个相似案例
- •技术栈:使用的框架、语言、关键依赖
- •测试:现有测试文件和验证方式
- •观察报告:Codex 作为专家,报告发现的异常、信息不足之处和建议深入的方向
步骤2:识别关键疑问(必须)
主AI使用 sequential-thinking 分析初步收集和观察报告,识别关键疑问:
- •我理解了什么?(已知)
- •还有哪些疑问影响规划?(未知)
- •这些疑问的优先级如何?(高/中/低)
- •输出:优先级排序的疑问列表
步骤3:针对性深挖(按需,建议≤3次)
仅针对高优先级疑问,通过 Codex 深挖:
- •聚焦单个疑问,不发散
- •提供代码片段证据,而非猜测
- •输出到
.claude/context-question-N.json - •成本提醒:第3次深挖时提醒"评估成本",第4次及以上警告"建议停止,避免过度收集"
步骤4:充分性检查(必须)
在进入任务规划前,主AI必须回答充分性检查清单:
- •□ 我能定义清晰的接口契约吗?(知道输入输出、参数约束、返回值类型)
- •□ 我理解关键技术选型的理由吗?(为什么用这个方案?为什么有多种实现?)
- •□ 我识别了主要风险点吗?(并发、边界条件、性能瓶颈)
- •□ 我知道如何验证实现吗?(测试框架、验证方式、覆盖标准)
决策:
- •✓ 全部打勾 → 收集完成,进入任务规划和实施
- •✗ 有未打勾 → 列出缺失信息,补充1次针对性深挖
回溯补充机制
允许"先规划→发现不足→补充上下文→完善实现"的迭代:
- •如果在规划或实施阶段发现信息缺口,记录到
operations-log.md - •补充1次针对性收集,更新相关 context 文件
- •避免"一步错、步步错"的僵化流程
禁止事项
- •❌ 跳过步骤1(结构化快速扫描)或步骤2(识别关键疑问)
- •❌ 跳过步骤4(充分性检查),在信息不足时强行规划
- •❌ 深挖时不说明"为什么需要"和"解决什么疑问"
- •❌ 主AI自行收集代码/文档,必须委托 Codex 执行
- •❌ 上下文文件写入错误路径(必须是
.claude/而非~/.claude/)
📊 评分和决策机制
评分维度
技术维度评分:
- •代码质量:可读性、维护性、性能
- •测试覆盖:单元测试、集成测试、边界条件
- •规范遵循:编码标准、架构原则、安全要求
战略维度评分:
- •需求匹配:功能完整性、用户体验
- •架构一致:系统设计、模块化程度
- •风险评估:潜在问题、扩展性、兼容性
综合评分:0-100分
决策规则
- •≥90分且建议"通过" → 直接确认通过
- •<80分且建议"退回" → 直接确认退回
- •80-89分或建议"需讨论" → 仔细审阅后决策
留痕要求
- •所有决策必须记录到
operations-log.md - •推翻 Codex 建议时必须记录详细理由
- •保留完整的审查报告和评分依据
🎯 使用示例
深度分析示例
code
使用 codex-collaboration skill 分析项目架构,识别潜在的性能瓶颈和改进机会
复杂设计示例
code
使用 codex-collaboration skill 设计一个支持高并发的分布式任务队列系统
代码审查示例
code
使用 codex-collaboration skill 审查用户认证模块的代码质量和安全性
本 skill 专注于 Codex 协作流程,确保深度分析、复杂设计和质量审查的标准化和高效执行。