Install
openclaw skills install financial-data-collection中国财政部财政收支数据采集与分析。当用户提到以下场景时使用本 skill:(1) 抓取财政数据 - 触发词:抓取财政数据、采集财政数据、最新财政数据、财政数据采集;(2) 分析财政数据 - 触发词:分析财政数据、分析财政赤字、研究财政收入、对比财政收支。负责运行财政部官网的财政数据采集 pipeline,并对采集...
openclaw skills install financial-data-collection本 skill 依赖 conda 环境 scrapyEnv,运行前确认环境已安装:
conda activate scrapyEnv
若环境不存在,根据项目的 environment.yml 创建:
conda env create -f $SKILL_DIR/FinancialDataCollection/environment.yml
python3 $SKILL_DIR/FinancialDataCollection/scripts/run_pipeline.py
可选参数:
--start-month YYYY-MM:起始月份--end-month YYYY-MM:结束月份--output-dir DIR:输出目录(默认 output,统一存放于以下路径)示例:
# 采集全部历史数据
python3 $SKILL_DIR/FinancialDataCollection/scripts/run_pipeline.py --output-dir $WORKSPACE/output
# 只采集 2024 年数据
python3 $SKILL_DIR/FinancialDataCollection/scripts/run_pipeline.py --start-month 2024-01 --end-month 2024-12 --output-dir $WORKSPACE/output
路径说明:
$SKILL_DIR:skill 自身目录(~/.openclaw/skills/financial-data-collection/),项目代码放在$SKILL_DIR/FinancialDataCollection/内$WORKSPACE:agent 工作区根目录(~/.openclaw/workspace/),采集的输出数据统一放在$WORKSPACE/output/下- 迁移到其他机器时,将整个 skill 目录复制过去即可,无需修改任何路径
运行后在统一输出路径下按期间组织,结构如下:
$WORKSPACE/output/
├── YYYYMM-YYYYMM/ ← 每个统计区间一个目录
│ ├── raw_documents.xlsx ← 原始公告层
│ └── extracted_metrics.xlsx ← 原始提取层(累计值)
└── 全量汇总/ ← 全量运行汇总(优先使用)
└── YYYYMMDDHHMMSS/
├── derived_metrics_*.xlsx ← 推导层(含单月值、赤字派生指标)
└── monthly_summary_*.xlsx ← 月度汇总宽表(行=指标,列=各月)
各期间 extracted_metrics.xlsx:原始提取层,每行 = 某指标在某个统计区间的累计值,字段包含 指标(单位:亿元)(即指标名称)、指标值、同比增速、来源公告 等。
全量汇总/derived_metrics_*.xlsx:推导层,共 3 类推导记录:
全量汇总/monthly_summary_*.xlsx:月度宽表,行 = 指标(共 47 项),列 = 各月(201301 起),适合直接做跨年度环比、同比分析。
⚠️ 优先使用全量汇总文件夹中的文件,仅在汇总文件缺失或需要验证时再查各期间的分文件。
何时用哪个:
monthly_summary_*.xlsxderived_metrics_*.xlsxextracted_metrics_*.xlsx运行日志中 [WARN] 开头的行为异常记录,格式为:
[WARN] YYYY-MM 指标名称 - 异常原因
常见异常类型及修复方向:
| 异常类型 | 异常原因 | 修复方向 |
|---|---|---|
| 缺少上一期间数据 | 上期公告未抓取或解析失败 | 补充抓取上期数据后重跑 pipeline |
| 解析失败 | 网页结构变化或指标格式不匹配 | 检查 src/fiscal_parser.py 的解析正则,定位变化点,更新正则或添加新指标映射规则 |
| 重复数据 | 同一指标在同一期间有多条记录 | 检查去重逻辑,清理 output 缓存后重跑 |
| 单位不一致 | 原文使用万元等非亿元单位 | 在 fiscal_transform.py 中检查单位转换逻辑 |
修复流程:
⚠️ 本 skill 生成的所有图表、数据文件(如 .png、.csv 等)一律保存到以下目录,不放在 workspace 根目录:
$WORKSPACE/output/artifacts/
输出文件名应包含分析主题和日期,便于识别,例如:tax_revenue_yoy_20260327.png。
示例 1:分析 2024 年各月财政赤字趋势
示例 2:对比 2024 年和 2025 年同期税收收入
示例 3:识别异常指标
import pandas as pd
# 各期间分文件
df = pd.read_excel("$WORKSPACE/output/202401-202412/extracted_metrics.xlsx")
# 全量汇总月度宽表(优先使用)
df_summary = pd.read_excel("$WORKSPACE/output/全量汇总/<最新时间戳>/monthly_summary_<时间戳>.xlsx")
--start-month / --end-month 限制范围减少重复抓取