# Airline Info to Website — 参考手册 与 [SKILL.md](../SKILL.md) 配合使用:主文件写门禁、进度与阶段总览;本文件写**输出目录规范**、**各 Phase 命令**、**验收与复盘**。 ## 路径与依赖 - **技能根目录**:`SKILL.md` 所在目录(含 `scripts/`) - 命令中的 `--output` 可为绝对路径或相对于**当前工作目录**的路径 - Python 依赖:`pip install requests beautifulsoup4` ## 输出约定 ### 目录结构(每个机型) ``` 机型名称/ ├── 机型详情.md # 机型基本信息、舱位配置 ├── 完整内容整理.md # 详细内容汇总(可选) └── images/ ├── 0-原始数据/ # 首次抓取原文、原图(只追加、不删除) ├── 1-座椅布局/ # 座位图、舱位平面图 ├── 2-座椅图片/ # 座椅实物照片 ├── 3-机上餐食/ # 餐食、菜单相关 ├── 4-娱乐设备/ # IFE、端口、Wi-Fi 等 └── 5-其他信息/ # 外观、logo、杂项等 ``` ### 多版本机型 若 seatmap 显示某机型有 **N** 个类型,则创建 `V.1` ~ `V.N` 子目录: ``` Airbus A380/ ├── 机型详情.md ├── 版本索引.md ├── V.1/ │ ├── 机型详情.md │ └── images/(六项子目录齐全) ├── V.2/ │ └── ... └── ... ``` ## 主流程命令 ### Phase 1 — 确认范围 明确:航司名称、单机型或全航司、输出目录(如 `FlightData/`) ### Phase 2 — 获取机型列表 航司列表入口:`https://seatmaps.com/zh-CN/airlines/` ### Phase 3 — 抓取机型数据 ```bash # 抓取整个航司 python scripts/scrape_seatmaps.py --airline "航空公司中英文名称" --output FlightData/ # 抓取单个机型 URL python scripts/scrape_seatmaps.py "https://seatmaps.com/zh-CN/..." --output FlightData/ ``` ### Phase 5 — 语义分类 ```bash node scripts/classify-images.js --base-dir "FlightData/航司目录" ``` ### Phase 6 — 去重 ```bash node scripts/dedup-images.js --base-dir "FlightData/航司目录" ``` ### Phase 8 — 文档生成 生成或更新各机型的 `机型详情.md`、航司级 `README.md` ## 完成检查 - [ ] 航司/机型 `机型详情.md` 是否存在且可读 - [ ] 每个 `images/` 下是否存在 `0-原始数据` ~ `5-其他信息` 六个子目录 - [ ] 多类型机型的子目录数量是否与 seatmap 类型数一致 - [ ] 无多余重复图片/正文 - [ ] 临时文件已清理 ## 自我学习机制(任务后复盘) 每轮任务结束后简要复盘,必查项: - 是否漏做多类型或错误合并 - 每个 `images/` 六项子目录是否齐全 - `0-原始数据` 是否被误删或覆盖 - 是否重复下载或可合并的重复资源