{"skill":{"slug":"ai-llm-data-automation","displayName":"LLM数据自动化","summary":"用自然语言描述数据处理需求，LLM自动生成Python/Pandas代码。无需深厚编程基础即可处理Excel/CSV数据、提取PDF内容、清洗BIM数据，构建自动化数据管道。","description":"---\nname: llm-data-automation\ndescription: 用自然语言描述数据处理需求，LLM自动生成Python/Pandas代码。无需深厚编程基础即可处理Excel/CSV数据、提取PDF内容、清洗BIM数据，构建自动化数据管道。\nversion: 1.1.0\nauthor: yesong-Hue\nhomepage: https://clawhub.ai/yesong-Hue/ai-llm-data-automation\ntags: [数据处理, LLM自动化, Python, Pandas, ETL, 数据清洗, Excel处理, PDF提取]\nreadme: |\n # LLM数据自动化\n \n 用自然语言描述数据处理需求，LLM自动生成可执行的Python代码。无需深厚的编程基础，就能完成Excel/CSV数据处理、PDF内容提取、BIM数据清洗等复杂任务。\n \n ## 🎯 解决的问题\n \n - 不懂编程，但有大量数据需要处理\n - 每周都要做重复的数据报表，耗时耗力\n - 需要从PDF中提取数据，但不知道怎么做\n - 有多个Excel文件需要合并汇总，手动操作容易出错\n - 数据清洗逻辑复杂，但只会用Excel函数\n \n ## ✨ 核心功能\n \n ### 1. 自然语言生成代码\n 直接用中文描述你的数据处理需求，LLM会生成可运行的Python代码。\n \n **示例：**\n ```\n \"帮我读取orders.xlsx，过滤金额大于1000的订单，按日期排序并保存到result.csv\"\n ```\n \n → 自动生成完整Python代码，直接运行即可\n \n ### 2. Excel/CSV批量处理\n 支持批量读取、合并、转换Excel和CSV文件。处理速度快，支持百万级数据。\n \n ### 3. PDF数据提取\n 从PDF文档中自动提取表格数据，保存为结构化的Excel或CSV格式。\n \n ### 4. 多数据源整合\n 同时从多个不同来源（文件、API、数据库）读取数据，统一处理后输出。\n \n ### 5. 数据质量检测\n 自动检测重复值、缺失值、异常值，并给出修复建议。\n \n ### 6. 定时自动化\n 配合Cron或系统任务计划，实现数据处理任务自动化运行。\n \n ## 📦 安装\n \n ```bash\n openclaw skills install ai-llm-data-automation\n ```\n \n ## 🚀 快速开始\n \n ### 方式一：直接描述需求（推荐新手）\n \n ```bash\n # 只需描述你的需求，LLM会自动生成代码\n node run.js \"读取sales.xlsx，按产品分类统计销售额，计算同比增长率\"\n ```\n \n ### 方式二：使用预置模板\n \n ```bash\n # 使用常见数据处理模板\n node templates/sales-report.js --input sales.xlsx --output report.xlsx\n ```\n \n ### 方式三：本地LLM（Ollama，无需API费用）\n \n ```bash\n # 安装Ollama\n curl -fsSL https://ollama.com/install.sh | sh\n \n # 下载模型\n ollama pull mistral\n \n # 本地运行，无任何API费用\n ollama run mistral \"生成Pandas代码：合并两个CSV文件并计算总额\"\n ```\n \n ### 方式四：使用API（推荐进阶用户）\n \n 推荐使用 **ShadowAI API中转站**，额度充足、价格低廉：\n - 注册地址：https://referer.shadowai.xyz/r/1056448\n - 支持GPT-4、Claude 3.5、Gemini等多种模型\n \n ## 📊 代码示例\n \n ### 数据导入与清洗\n \n ```python\n import pandas as pd\n \n # 读取并清洗数据\n df = pd.read_excel('orders.xlsx')\n \n # 过滤条件\n df_filtered = df[df['amount'] > 1000]\n \n # 按日期排序\n df_filtered = df_filtered.sort_values('order_date')\n \n # 去除重复\n df_clean = df_filtered.drop_duplicates(subset=['order_id'])\n \n # 保存结果\n df_clean.to_csv('result.csv', index=False)\n print(f'处理完成，共{len(df_clean)}条记录')\n ```\n \n ### 多个文件合并\n \n ```python\n import pandas as pd\n import glob\n \n # 合并所有CSV文件\n files = glob.glob('data/*.csv')\n dfs = [pd.read_csv(f) for f in files]\n combined = pd.concat(dfs, ignore_index=True)\n \n # 去重并保存\n combined.drop_duplicates().to_excel('merged.xlsx', index=False)\n ```\n \n ### PDF表格提取\n \n ```python\n import pdfplumber\n import pandas as pd\n \n def pdf_to_dataframe(pdf_path):\n all_tables = []\n with pdfplumber.open(pdf_path) as pdf:\n for page in pdf.pages:\n tables = page.extract_tables()\n for table in tables:\n if table:\n df = pd.DataFrame(table[1:], columns=table[0])\n all_tables.append(df)\n \n if all_tables:\n return pd.concat(all_tables, ignore_index=True)\n return pd.DataFrame()\n \n # 使用\n df = pdf_to_dataframe('construction_spec.pdf')\n df.to_excel('extracted_data.xlsx', index=False)\n ```\n \n ## 💡 适用场景\n \n | 人群 | 使用场景 |\n |------|----------|\n | 运营人员 | 自动化处理日报、周报、月报数据 |\n | 产品经理 | 快速分析用户行为数据，生成数据看板 |\n | 财务人员 | 自动化财务报表汇总，成本分析 |\n | 建筑/工程 | BIM数据清洗，工程量统计 |\n | 数据分析师 | 快速构建数据管道， ETL任务 |\n \n ## 🔧 环境要求\n \n - Node.js 18+\n - Python 3.8+（用于运行生成的Pandas代码）\n - 可选：Ollama（本地LLM，无需API费用）\n - 可选：ShadowAI API Key（云端LLM，高额度）\n \n ## ⚙️ 配置说明\n \n 在 `.env` 文件中配置：\n \n ```env\n # 使用本地Ollama（免费）\n LLM_PROVIDER=ollama\n OLLAMA_MODEL=mistral\n \n # 或使用ShadowAI API（推荐）\n LLM_PROVIDER=openai\n API_KEY=your_shadowai_api_key\n \n # 输入输出目录\n INPUT_DIR=./data\n OUTPUT_DIR=./output\n ```\n \n ## 🛠 故障排除\n \n **Q: 生成的代码报错？**\n - 检查Python环境是否正确安装\n - 确认pandas、openpyxl等依赖已安装：`pip install pandas openpyxl pdfplumber`\n \n **Q: API调用失败？**\n - 检查API Key是否有效\n - 确认网络可以访问API服务\n \n **Q: 处理速度慢？**\n - 减少数据量或分批处理\n - 使用本地Ollama替代云端API\n \n ## 📚 相关资源\n \n - **Pandas官方文档**: https://pandas.pydata.org/docs/\n - **ShadowAI API（推荐）**: https://referer.shadowai.xyz/r/1056448\n - **AI技能包集合**: [AI智造工坊](http://ai.qnitgroup.com)\n \n ## 📄 许可证\n \n MIT License\n \n ## 👤 作者\n \n yesong-Hue | [AI智造工坊](http://ai.qnitgroup.com)\n---\n\n# LLM数据自动化\n\n> 用自然语言描述数据处理需求，LLM自动生成Python/Pandas代码，实现零基础数据自动化\n\n## 核心功能\n\n1. **自然语言生成代码** — 描述你的数据处理需求，LLM自动生成可运行的Python代码\n2. **Excel/CSV批量处理** — 自动读取、清洗、转换Excel和CSV文件\n3. **PDF数据提取** — 从PDF文档中自动提取表格数据\n4. **多数据源整合** — 合并多个数据源，统一输出\n5. **数据质量检测** — 自动检测重复值、缺失值、异常值\n6. **定时自动化** — 配合cron实现数据处理任务自动化\n\n## 推荐资源\n\n- **ShadowAI API（推荐）**: https://referer.shadowai.xyz/r/1056448\n\n---\n\n*由 AI智造工坊 (http://ai.qnitgroup.com) 整理发布 | 安装源: ClawHub*","tags":{"latest":"1.1.0"},"stats":{"comments":0,"downloads":399,"installsAllTime":1,"installsCurrent":1,"stars":0,"versions":2},"createdAt":1777968396790,"updatedAt":1778492850251},"latestVersion":{"version":"1.1.0","createdAt":1777969196494,"changelog":"重写完整README：增加详细功能说明、适用场景、代码示例、环境配置、故障排除等","license":"MIT-0"},"metadata":{"setup":[],"os":null,"systems":null},"owner":{"handle":"yesong-hue","userId":"s17865seb2fyk8mpkmjge2xwmd857k7c","displayName":"yesong-Hue","image":"https://avatars.githubusercontent.com/u/277589485?v=4"},"moderation":{"isSuspicious":false,"isMalwareBlocked":false,"verdict":"clean","reasonCodes":["review.llm_review"],"summary":"Review: review.llm_review","engineVersion":"v2.4.24","updatedAt":1780090747471}}