Install
openclaw skills install ai-auto-devClawHub Security found sensitive or high-impact capabilities. Review the scan results before using.
AI全自动化编程,Claude Code作为项目经理指挥Builder自动完成编程任务(需求对齐→指令生成→自动执行→验收→文档归档暂存)
openclaw skills install ai-auto-devClaude Code 作为项目经理,Builder 作为执行者的全自动化编程流程。
v2.2 更新(2026-02-22):新增中断恢复机制(FlowPilot 启发)、依赖图自动分析(替代手动 [P] 标记)
选择一个 Builder(AI 编程执行工具),推荐以下任一:
| Builder | 安装 | 执行命令 |
|---|---|---|
| Codex CLI | npm i -g @openai/codex | codex exec --skip-git-repo-check "$(cat spec.md)" |
| Claude Code | 已内置 | 直接在对话中执行 |
| Aider | pip install aider-chat | aider --message "$(cat spec.md)" |
关键要求:Builder 必须有完整文件系统访问权限,能执行 npx/node/tsc 等命令。
以 Codex 为例,~/.codex/config.toml 需配置:
ask_for_approval = "never"
sandbox_mode = "danger-full-access"
⚠️ 重要:必须使用完整访问权限模式,受限模式会阻止 npx/node/tsc 等命令,导致三重纠错无法执行,Token 浪费 60%。
目的:建立 Claude Code 会话信任,避免后续 Bash 后台任务需要确认
操作:
echo "Warmup at $(date '+%Y-%m-%d %H:%M:%S')" && sleep 2 && echo "Ready"
要求:
/ai-auto-dev 都必须先执行暖场run_in_background: true 参数原理:
使用新模板(v2.0 核心改进):
specs/SPEC-TEMPLATE.md 为 specs/TASK-{id}-{name}.mdspecs/SPEC-TEMPLATE-GUIDE.md 填写## Assumptions 章节[假设: 具体内容]### US1: 功能名称 (Priority: P1)
作为[角色],我需要[功能],以便[价值]。
**Acceptance Scenarios:**
- **Given** [前置条件],**When** [操作],**Then** [预期结果]
**Test Criteria:**
- [ ] {具体可测试的标准}
[P] = 可与其他 [P] 步骤并行执行[US1][US2] = 关联到对应用户故事### Step 1: 创建模块 [P] [US1]Spec 中必须包含此章节,Builder 执行后强制运行:
## Self-Check Requirements (MANDATORY)
### Check 1: Static Analysis
```bash
npx tsc --noEmit --strict --skipLibCheck
npm test # 或 jest / vitest --run
npm run build
创建 {output-dir}/self-check-report.md,包含:
如果任何检查失败:
#### 改进 5:Verification Checklist
```markdown
## Verification Checklist
### Code Quality
- [ ] TypeScript 编译无错误
- [ ] 所有测试通过
- [ ] 无 console.log 残留
### Functional Requirements (US1)
- [ ] {US1 的具体需求}
### Functional Requirements (US2)
- [ ] {US2 的具体需求}
### Edge Cases
- [ ] 空输入处理
- [ ] 边界值处理
### Security & Performance
- [ ] 无安全漏洞
- [ ] 无性能瓶颈
任务拆解原则:
展示 Spec 给用户确认后进入第三步。
目的:如果上次会话中途中断(compact、崩溃、关窗口),自动从断点续接。
状态文件:{项目目录}/.codex-progress.json
{
"session_id": "2026-02-22-001",
"tasks": [
{"id": "001", "spec": "specs/TASK-001.md", "status": "done", "token": 125000},
{"id": "002", "spec": "specs/TASK-002.md", "status": "active", "token": 0},
{"id": "003", "spec": "specs/TASK-003.md", "status": "pending", "token": 0}
],
"updated_at": "2026-02-22 10:30:00"
}
检测逻辑(PM 在第三步开始前执行):
# 检查是否有未完成的进度文件
if [ -f ".codex-progress.json" ]; then
echo "检测到中断的任务进度:"
cat .codex-progress.json
fi
恢复规则:
done 的任务:跳过,不重复执行active 的任务:重置为 pending,重新执行(active 表示执行中被中断,结果不可信)pending 的任务:正常执行failed 的任务:分析原因后决定重试或跳过更新时机:
active,写入文件done,记录 token,写入文件failed,记录错误,写入文件PM 更新进度的命令:
# 用 Python 更新进度文件(比 jq 可靠)
python3 -c "
import json
with open('.codex-progress.json', 'r') as f: data = json.load(f)
for t in data['tasks']:
if t['id'] == '${TASK_ID}': t['status'] = '${NEW_STATUS}'
data['updated_at'] = '$(date '+%Y-%m-%d %H:%M:%S')'
with open('.codex-progress.json', 'w') as f: json.dump(data, f, indent=2)
"
目的:PM 不再手动标记 [P],而是自动分析任务间依赖关系,生成并行分组。
分析规则(PM 在生成所有 Spec 后执行):
Files to Create/Modify 列表依赖分析结果:
Layer 1 (并行): TASK-001, TASK-003, TASK-005 ← 无依赖,同时启动
Layer 2 (并行): TASK-002, TASK-004 ← 依赖 Layer 1 的输出
Layer 3 (串行): TASK-006 ← 集成任务,依赖全部
PM 执行依赖分析的命令:
# 从所有 Spec 中提取文件目标,分析依赖
for spec in specs/TASK-*.md; do
TASK_ID=$(basename "$spec" .md | sed 's/TASK-//')
# 提取 Files to Create/Modify 章节中的文件路径
FILES=$(grep -A 20 "Files to Create\|Files to Modify" "$spec" | grep '^\s*-\s*`' | sed 's/.*`\(.*\)`.*/\1/')
echo "TASK-$TASK_ID: $FILES"
done
与分层引爆模型的关系:
[P] → 分组 → 分层引爆builder exec --skip-git-repo-check "$(cat specs/TASK-{id}-{name}.md)" > logs/task-{id}.log 2>&1 &
分层引爆模型(A→B→C):
A1(主引线):暖场 + 任务分组
↓ 串联触发(快速,<5秒)
B1 ── B2 ── B3(二级引线,各组并行启动)
↓ ↓ ↓
C1 C2 C3(组内任务,并行执行)
execute_batch 并行调用)builder exec ... &)分组原则:
并发规则(15 并发标准):
并行执行前提条件:
执行脚本模板:
# 15并发真·并行模式
BATCH_SIZE=15
TOTAL_TASKS=<任务总数>
BATCH_COUNT=$(( (TOTAL_TASKS + BATCH_SIZE - 1) / BATCH_SIZE ))
mkdir -p logs
execute_batch() {
local BATCH_ID=$1
local START_TASK=$2
local END_TASK=$3
echo "[批次${BATCH_ID}] 启动任务 ${START_TASK}-${END_TASK}"
for i in $(seq $START_TASK $END_TASK); do
TASK_NUM=$(printf '%03d' $i)
builder exec --skip-git-repo-check "$(cat specs/TASK-${TASK_NUM}.md)" \
> "logs/task-${TASK_NUM}.log" 2>&1 &
done
wait
echo "[批次${BATCH_ID}] 完成"
}
TASK_ID=1
for batch in $(seq 1 $BATCH_COUNT); do
START_TASK=$TASK_ID
END_TASK=$((TASK_ID + BATCH_SIZE - 1))
if [ $END_TASK -gt $TOTAL_TASKS ]; then
END_TASK=$TOTAL_TASKS
fi
execute_batch $batch $START_TASK $END_TASK &
TASK_ID=$((END_TASK + 1))
done
wait
扩展策略:
主动监控机制:
monitor_codex_execution() {
local LOG_FILE=$1
local TARGET_FILE=$2
local STABLE_COUNT=0
local LAST_SIZE=0
while true; do
if [ -f "$LOG_FILE" ]; then
CURRENT_SIZE=$(stat -f%z "$LOG_FILE" 2>/dev/null || stat -c%s "$LOG_FILE" 2>/dev/null)
if [ "$CURRENT_SIZE" -eq "$LAST_SIZE" ]; then
STABLE_COUNT=$((STABLE_COUNT + 1))
if [ $STABLE_COUNT -ge 4 ]; then
echo "✅ 日志稳定,任务可能已完成"
if [ -f "$TARGET_FILE" ]; then
FILE_TIME=$(stat -f%m "$TARGET_FILE" 2>/dev/null || stat -c%Y "$TARGET_FILE" 2>/dev/null)
CURRENT_TIME=$(date +%s)
TIME_DIFF=$((CURRENT_TIME - FILE_TIME))
if [ $TIME_DIFF -lt 300 ]; then
echo "✅ 目标文件已更新,触发验证"
return 0
fi
fi
fi
else
STABLE_COUNT=0
LAST_SIZE=$CURRENT_SIZE
fi
fi
sleep 30
done
}
监控策略:
Builder 完成后,Claude Code 自动执行以下检查(无需用户确认):
cat {output-dir}/self-check-report.md
报告包含:
文件完整性(必须实际验证,不能只看日志)
ls -lh [目标路径]find [目标路径] -name "*.ts" -size 0wc -l [目标路径]/*.ts代码质量(抽查)
Verification Checklist 验证
分析失败原因
生成修复建议
决策
继续信任 Builder 的标志:
需要介入的标志:
介入方式:
| 级别 | 预期时间 | 预期 Token | 介入次数 | 典型场景 |
|---|---|---|---|---|
| 简单 | ≤5 分钟 | ≤500K | 0 | 单文件修改、配置调整、小功能 |
| 复杂 | ≤30 分钟 | ≤5M | 0-1 | 多文件功能、重构、新模块 |
超阈值判定:实际值 > 2× 预期值 → 标记异常,写入实验日志,分析原因。
| 状态 | 判断依据 |
|---|---|
| 正常思考 | 输出内容在变化 OR 错误类型在变化 OR Token 稳定增长 |
| 死循环 | 相同错误 ≥3 次 AND Token 持续增长但无新进展 |
| 完全卡死 | 超过 5 分钟无任何输出 |
数学条件:相同错误出现次数 ≥ 3 → 立即介入,不等待。
## 验收报告
### 执行统计
**时间消耗:**
- 实际执行时间:X 分钟
- 总墙上时钟时间:Y 分钟
- 串行预估时间:Z 小时(如适用)
- 效率提升:N%(如适用)
**Token 消耗:**
- Spec 生成(PM):XXK tokens
- Builder 执行(Builder):XXM tokens
- PM 验证:XXK tokens
- **总计:X.XM tokens**
**成本效益:**
- 人工开发预估:X-Y 天
- 自动化完成:Z 分钟
### Builder Self-Check 结果
- Static Analysis: ✅ PASS / ❌ FAIL (X errors)
- Test Results: ✅ PASS / ❌ FAIL (X/Y passed)
- Build Results: ✅ PASS / ❌ FAIL
- Overall: ✅ PASS / ❌ FAIL
### PM 验证结果
- 文件完整性: ✅ / ❌
- 代码质量: ✅ / ❌
- Verification Checklist: X/Y 项通过
### 文件清单
| 文件 | 大小 | 行数 | 状态 |
|------|------|------|------|
### 判定:✅ 通过 / ❌ 不通过
- 不通过原因(如有)
- 修复建议(如有)
_archive_staging.md 暂存文件暂存文件格式:
# 文档归档暂存
> 创建日期:YYYY-MM-DD
> 项目:[项目名称]
> 任务:[任务描述]
> 状态:待用户审阅
---
## 蒸馏内容
[本次工作中值得提炼的方法论、认知、经验]
---
## 日志内容
[本次工作的完整记录,按学习研究日志的会话格式编写]
---
## 踩坑记录
[遇到的问题和解决方案]
---
## 记忆库更新建议
[如有新的操作习惯或规则需要记录]
在第六步交付前,自动完成以下工作:
更新项目文档
调用 dev-log skill
v0.9.4)验证同步结果
注意:此步骤在第五步之后、第六步之前自动执行,无需用户确认。如果 GitHub 同步失败,记录错误但继续交付流程。
同时交付三样东西(全部内联显示在对话中,不要只给文件链接):
验收报告(第四步生成的)
归档暂存文件(第五步生成的)
GitHub 同步结果(第五步半完成的)
用户审阅后决定:
/distill 或手动写入正式文档# 提取单个任务的 Token 消耗
extract_tokens() {
local LOG_FILE=$1
grep "Usage:" "$LOG_FILE" | tail -1 | \
sed -E 's/.*input=([0-9]+) output=([0-9]+) total=([0-9]+).*/\1 \2 \3/'
}
# 统计所有任务的 Token 消耗
total_input=0; total_output=0; total_tokens=0
for log in logs/task-*.log; do
read input output total <<< $(extract_tokens "$log")
total_input=$((total_input + input))
total_output=$((total_output + output))
total_tokens=$((total_tokens + total))
done
echo "Total Input: ${total_input}"
echo "Total Output: ${total_output}"
echo "Total Tokens: ${total_tokens}"
| 现象 | 原因 | 修复 |
|---|---|---|
| 单任务 >500K tokens | 权限不足,陷入探测循环 | 改为 danger-full-access |
| 单任务 >500K tokens | Spec 不清晰,反复猜测 | 补充 Assumptions,明确需求 |
| PM Token 过高 | 读取了不必要的文件 | 遵守"PM 不读代码"原则 |
| 总 Token 超预期 | 重复执行失败任务 | 先修复 Spec 再重新执行 |
specs/SPEC-TEMPLATE.md,包含 5 个核心改进_archive_staging.md 暂存文件,绝对不能直接写入正式文档ls 实际确认文件存在,不能只看 Builder 输出就报告成功self-check-report.md、ls 输出、日志文件。不读源码(.ts/.js/.py)。"不读代码"= 不读源码,不等于不读报告。现象:Builder 无法运行 npx/node/tsc,Token 消耗异常高(60% 浪费在权限探测)
原因:config.toml 中 sandbox_mode = "workspace-write"
修复:改为 sandbox_mode = "danger-full-access"
验证:builder exec "echo hello" 输出显示 sandbox: danger-full-access
现象:PM 在中途停下等待用户指示,导致大量时间浪费 原因:误解了"全自动化"含义,认为需要在每个阶段询问用户确认 修复:执行完所有 6 步才交付,只有遇到无法解决的错误时才停下来 数据:错误做法导致 455 分钟空闲 vs 85 分钟工作,浪费比例 84%
现象:PM 报告任务成功,但文件根本不存在
原因:读取了错误的输出文件,没有实际验证文件是否存在
修复:必须用 ls 实际确认文件存在,必须运行编译检查才能声称编译通过
现象:用户反馈"不好找",阅读体验差 原因:PM 过度关注 Token 成本优化 修复:默认内联显示所有报告 决策标准:成本差异 <1 元/100 轮 → 优先用户体验,内联显示
现象:PM 在 Builder 还在工作时停止任务,导致成本翻倍 原因:PM 用自己的时间预估判断 Builder 是否卡死 修复:按照"PM-Builder 信任原则"判断,只有满足"需要介入的标志"才介入
/distill 写入正式蒸馏文档/sop-generator 生成 SOP/dev-log 记录版本现实约束:当前没有 Gemini/向量数据库,Memory 角色由 PM 用文件检索替代。
| 需求 | 实际操作 | 命令 |
|---|---|---|
| 查找相关文件 | Glob 模式匹配 | Glob("src/**/*.ts") |
| 搜索历史决策 | Grep 关键词 | Grep("pattern", path) |
| 读取基线数据 | Read 文件 | Read("windtunnel/baselines/...") |
| 查找踩坑记录 | Read 暂存文件 | Read("_archive_staging.md") |
❌ 错误:直接读 src/ 下的源码文件来"理解"项目
✅ 正确:读 self-check-report.md、CLAUDE.md、_archive_staging.md 获取上下文
✅ 正确:用 Glob/Grep 定位文件路径,把路径写进 Spec,让 Builder 去读
## 上下文(PM 查询 Memory 后填入)
- 相关文件:`src/taskManager.ts`(通过 Glob 定位)
- 历史决策:使用 danger-full-access(见 _archive_staging.md 权限进化历程)
- 已知问题:activationEvents 缺失(见 CLAUDE.md Section 6)
specs/SPEC-TEMPLATE.mdspecs/SPEC-TEMPLATE-GUIDE.mdCLAUDE.md(Section 3: Spec MD Format)automated-comparison-test/FINAL-COMPARISON-REPORT.md(61.4% 效率提升数据)核心原则:重要信息必须立即落盘,不能只存在上下文中。 上下文压缩会导致风洞数据失真——压缩后的"记忆"不等于真实发生的事情。
每次新会话开始,PM 必须读取以下文件(按顺序):
1. ~/.claude/windtunnel/baselines/ai-auto-dev-baseline.md ← 基线数据
2. ~/.claude/windtunnel/experiments/{今日日期}-summary.md ← 今日实验记录(如存在)
3. {项目目录}/CLAUDE.md ← 项目约束
目的:从文件恢复上下文,而不是依赖对话历史(对话历史可能已被压缩)。
以下数据必须在产生时立即写入文件,不能只存在对话中:
| 数据类型 | 写入位置 | 触发时机 |
|---|---|---|
| 任务开始记录 | windtunnel/experiments/{日期}-log.md | 第三步执行前 |
| 验收结果 | windtunnel/experiments/{日期}-log.md | 第四步完成后 |
| 基线对比 | windtunnel/baselines/ai-auto-dev-baseline.md | 每次任务完成后 |
| 踩坑记录 | _archive_staging.md | 发现问题时立即记录 |
实验日志格式(追加写入,不覆盖):
## {时间戳} | 任务:{任务名} | 难度:简单/复杂
**输入**:{需求一句话描述}
**执行时间**:X 分钟
**Token 消耗**:X.XM
**介入次数**:X
**结果**:✅ PASS / ❌ FAIL
**偏差**:与基线相比 +/-X%(如有)
**备注**:{关键发现,一句话}
写入命令(PM 在第四步后执行):
cat >> ~/.claude/windtunnel/experiments/$(date '+%Y-%m-%d')-log.md << 'EOF'
{上述格式内容}
EOF
禁止:将以下内容只放在对话中:
要求:每次任务完成后,PM 必须确认以上内容已写入文件,才能进入第六步交付。
每次任务完成后,PM 自动计算与基线的偏差并写入日志:
偏差计算:
- 时间偏差 = (实际时间 - 基线时间) / 基线时间 × 100%
- Token 偏差 = (实际Token - 基线Token) / 基线Token × 100%
- 偏差 > +50%:标记为异常,分析原因
- 偏差 < -20%:标记为改进,记录原因
| 版本 | 日期 | 变更 |
|---|---|---|
| v1.0 | 2026-02-15 | 初始版本,建立基础流程 |
| v2.0 | 2026-02-19 | 新增 Spec-Kit 改进(5 个核心机制)、三重纠错、PM-Builder 信任原则、Token 统计、常见错误修复方案 |
| v2.1 | 2026-02-21 | 新增记忆保护协议:立即落盘原则、实验日志格式、上下文压缩防护、基线自动对比 |
| v2.2 | 2026-02-22 | 新增中断恢复机制(.codex-progress.json 状态文件,active→pending 重置)、依赖图自动分析(替代手动 [P] 标记,自动拓扑排序分层) |