{"skill":{"slug":"ai-llm-data-automation","displayName":"LLM数据自动化","summary":"用自然语言描述数据处理需求，LLM自动生成Python/Pandas代码。无需深厚编程基础即可处理Excel/CSV数据、提取PDF内容、清洗BIM数据，构建自动化数据管道。","description":"---\nname: llm-data-automation\ndescription: 用自然语言描述数据处理需求，LLM自动生成Python/Pandas代码。无需深厚编程基础即可处理Excel/CSV数据、提取PDF内容、清洗BIM数据，构建自动化数据管道。\nversion: 1.1.0\nauthor: yesong-Hue\nhomepage: https://clawhub.ai/yesong-Hue/ai-llm-data-automation\ntags: [数据处理, LLM自动化, Python, Pandas, ETL, 数据清洗, Excel处理, PDF提取]\nreadme: |\n  # LLM数据自动化\n  \n  用自然语言描述数据处理需求，LLM自动生成可执行的Python代码。无需深厚的编程基础，就能完成Excel/CSV数据处理、PDF内容提取、BIM数据清洗等复杂任务。\n  \n  ## 🎯 解决的问题\n  \n  - 不懂编程，但有大量数据需要处理\n  - 每周都要做重复的数据报表，耗时耗力\n  - 需要从PDF中提取数据，但不知道怎么做\n  - 有多个Excel文件需要合并汇总，手动操作容易出错\n  - 数据清洗逻辑复杂，但只会用Excel函数\n  \n  ## ✨ 核心功能\n  \n  ### 1. 自然语言生成代码\n  直接用中文描述你的数据处理需求，LLM会生成可运行的Python代码。\n  \n  **示例：**\n  ```\n  \"帮我读取orders.xlsx，过滤金额大于1000的订单，按日期排序并保存到result.csv\"\n  ```\n  \n  → 自动生成完整Python代码，直接运行即可\n  \n  ### 2. Excel/CSV批量处理\n  支持批量读取、合并、转换Excel和CSV文件。处理速度快，支持百万级数据。\n  \n  ### 3. PDF数据提取\n  从PDF文档中自动提取表格数据，保存为结构化的Excel或CSV格式。\n  \n  ### 4. 多数据源整合\n  同时从多个不同来源（文件、API、数据库）读取数据，统一处理后输出。\n  \n  ### 5. 数据质量检测\n  自动检测重复值、缺失值、异常值，并给出修复建议。\n  \n  ### 6. 定时自动化\n  配合Cron或系统任务计划，实现数据处理任务自动化运行。\n  \n  ## 📦 安装\n  \n  ```bash\n  openclaw skills install ai-llm-data-automation\n  ```\n  \n  ## 🚀 快速开始\n  \n  ### 方式一：直接描述需求（推荐新手）\n  \n  ```bash\n  # 只需描述你的需求，LLM会自动生成代码\n  node run.js \"读取sales.xlsx，按产品分类统计销售额，计算同比增长率\"\n  ```\n  \n  ### 方式二：使用预置模板\n  \n  ```bash\n  # 使用常见数据处理模板\n  node templates/sales-report.js --input sales.xlsx --output report.xlsx\n  ```\n  \n  ### 方式三：本地LLM（Ollama，无需API费用）\n  \n  ```bash\n  # 安装Ollama\n  curl -fsSL https://ollama.com/install.sh | sh\n  \n  # 下载模型\n  ollama pull mistral\n  \n  # 本地运行，无任何API费用\n  ollama run mistral \"生成Pandas代码：合并两个CSV文件并计算总额\"\n  ```\n  \n  ### 方式四：使用API（推荐进阶用户）\n  \n  推荐使用 **ShadowAI API中转站**，额度充足、价格低廉：\n  - 注册地址：https://referer.shadowai.xyz/r/1056448\n  - 支持GPT-4、Claude 3.5、Gemini等多种模型\n  \n  ## 📊 代码示例\n  \n  ### 数据导入与清洗\n  \n  ```python\n  import pandas as pd\n  \n  # 读取并清洗数据\n  df = pd.read_excel('orders.xlsx')\n  \n  # 过滤条件\n  df_filtered = df[df['amount'] > 1000]\n  \n  # 按日期排序\n  df_filtered = df_filtered.sort_values('order_date')\n  \n  # 去除重复\n  df_clean = df_filtered.drop_duplicates(subset=['order_id'])\n  \n  # 保存结果\n  df_clean.to_csv('result.csv', index=False)\n  print(f'处理完成，共{len(df_clean)}条记录')\n  ```\n  \n  ### 多个文件合并\n  \n  ```python\n  import pandas as pd\n  import glob\n  \n  # 合并所有CSV文件\n  files = glob.glob('data/*.csv')\n  dfs = [pd.read_csv(f) for f in files]\n  combined = pd.concat(dfs, ignore_index=True)\n  \n  # 去重并保存\n  combined.drop_duplicates().to_excel('merged.xlsx', index=False)\n  ```\n  \n  ### PDF表格提取\n  \n  ```python\n  import pdfplumber\n  import pandas as pd\n  \n  def pdf_to_dataframe(pdf_path):\n      all_tables = []\n      with pdfplumber.open(pdf_path) as pdf:\n          for page in pdf.pages:\n              tables = page.extract_tables()\n              for table in tables:\n                  if table:\n                      df = pd.DataFrame(table[1:], columns=table[0])\n                      all_tables.append(df)\n      \n      if all_tables:\n          return pd.concat(all_tables, ignore_index=True)\n      return pd.DataFrame()\n  \n  # 使用\n  df = pdf_to_dataframe('construction_spec.pdf')\n  df.to_excel('extracted_data.xlsx', index=False)\n  ```\n  \n  ## 💡 适用场景\n  \n  | 人群 | 使用场景 |\n  |------|----------|\n  | 运营人员 | 自动化处理日报、周报、月报数据 |\n  | 产品经理 | 快速分析用户行为数据，生成数据看板 |\n  | 财务人员 | 自动化财务报表汇总，成本分析 |\n  | 建筑/工程 | BIM数据清洗，工程量统计 |\n  | 数据分析师 | 快速构建数据管道， ETL任务 |\n  \n  ## 🔧 环境要求\n  \n  - Node.js 18+\n  - Python 3.8+（用于运行生成的Pandas代码）\n  - 可选：Ollama（本地LLM，无需API费用）\n  - 可选：ShadowAI API Key（云端LLM，高额度）\n  \n  ## ⚙️ 配置说明\n  \n  在 `.env` 文件中配置：\n  \n  ```env\n  # 使用本地Ollama（免费）\n  LLM_PROVIDER=ollama\n  OLLAMA_MODEL=mistral\n  \n  # 或使用ShadowAI API（推荐）\n  LLM_PROVIDER=openai\n  API_KEY=your_shadowai_api_key\n  \n  # 输入输出目录\n  INPUT_DIR=./data\n  OUTPUT_DIR=./output\n  ```\n  \n  ## 🛠 故障排除\n  \n  **Q: 生成的代码报错？**\n  - 检查Python环境是否正确安装\n  - 确认pandas、openpyxl等依赖已安装：`pip install pandas openpyxl pdfplumber`\n  \n  **Q: API调用失败？**\n  - 检查API Key是否有效\n  - 确认网络可以访问API服务\n  \n  **Q: 处理速度慢？**\n  - 减少数据量或分批处理\n  - 使用本地Ollama替代云端API\n  \n  ## 📚 相关资源\n  \n  - **Pandas官方文档**: https://pandas.pydata.org/docs/\n  - **ShadowAI API（推荐）**: https://referer.shadowai.xyz/r/1056448\n  - **AI技能包集合**: [AI智造工坊](http://ai.qnitgroup.com)\n  \n  ## 📄 许可证\n  \n  MIT License\n  \n  ## 👤 作者\n  \n  yesong-Hue | [AI智造工坊](http://ai.qnitgroup.com)\n---\n\n# LLM数据自动化\n\n> 用自然语言描述数据处理需求，LLM自动生成Python/Pandas代码，实现零基础数据自动化\n\n## 核心功能\n\n1. **自然语言生成代码** — 描述你的数据处理需求，LLM自动生成可运行的Python代码\n2. **Excel/CSV批量处理** — 自动读取、清洗、转换Excel和CSV文件\n3. **PDF数据提取** — 从PDF文档中自动提取表格数据\n4. **多数据源整合** — 合并多个数据源，统一输出\n5. **数据质量检测** — 自动检测重复值、缺失值、异常值\n6. **定时自动化** — 配合cron实现数据处理任务自动化\n\n## 推荐资源\n\n- **ShadowAI API（推荐）**: https://referer.shadowai.xyz/r/1056448\n\n---\n\n*由 AI智造工坊 (http://ai.qnitgroup.com) 整理发布 | 安装源: ClawHub*","tags":{"latest":"1.1.0"},"stats":{"comments":0,"downloads":399,"installsAllTime":1,"installsCurrent":1,"stars":0,"versions":2},"createdAt":1777968396790,"updatedAt":1778492850251},"latestVersion":{"version":"1.1.0","createdAt":1777969196494,"changelog":"重写完整README：增加详细功能说明、适用场景、代码示例、环境配置、故障排除等","license":"MIT-0"},"metadata":{"setup":[],"os":null,"systems":null},"owner":{"handle":"yesong-hue","userId":"s17865seb2fyk8mpkmjge2xwmd857k7c","displayName":"yesong-Hue","image":"https://avatars.githubusercontent.com/u/277589485?v=4"},"moderation":{"isSuspicious":false,"isMalwareBlocked":false,"verdict":"clean","reasonCodes":["review.llm_review"],"summary":"Review: review.llm_review","engineVersion":"v2.4.24","updatedAt":1780090747471}}